강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

hyunseon.chae님의 프로필 이미지
hyunseon.chae

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

분포가 불균형할 때 로그함수 사용

작성

·

466

0

안녕하세요. 강의 잘 듣고 있습니다.

책 p.348 에 보면

데이터 분포가 불균형 할 때 로그 함수를 사용하여 정규분포와 비슷하게 만들어주는 데이터 처리를 사용하고 있는데요.

책에서처럼 낮은 값에 데이터가 몰려서 로그 함수를 취하면 정규 분포 처럼 될 것 같습니다만, 

만약 높은 값에 데이터가 몰린다면 로그 함수를 취한다면 효과가 없지 않나요? 

이럴 경우에 대한 데이터 처리방법에 궁금증이 생겨 질문합니다. ㅎㅎ

감사합니다.

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까

네 맞습니다. 그래서  log 변환은 right skew(positive skew)일때 적용합니다.

일반적으로 비지니스 데이터는 right skew이기 쉽습니다. 반대인 left skew는 흔하진 않아서 해당 경우에는 변환을 잘하진 않지만 변환이 필요한 경우 아래와 같은 방법을 적용할 수 있습니다.

1. 제곱을 곱해서 변환합니다. 값이 너무 커지는 특성이 있어서 잘 적용하지는 않습니다.

2. 로그 변환을 이용하되 최대값에서 해당 값을 빼서 적용합니다. 즉 최대값이 K라고 한다면 log(K - X +1) 로 변환합니다.

감사합니다.

hyunseon.chae님의 프로필 이미지
hyunseon.chae

작성한 질문수

질문하기