인프런 커뮤니티 질문&답변
분포가 불균형할 때 로그함수 사용
작성
·
466
0
안녕하세요. 강의 잘 듣고 있습니다.
책 p.348 에 보면
데이터 분포가 불균형 할 때 로그 함수를 사용하여 정규분포와 비슷하게 만들어주는 데이터 처리를 사용하고 있는데요.
책에서처럼 낮은 값에 데이터가 몰려서 로그 함수를 취하면 정규 분포 처럼 될 것 같습니다만,
만약 높은 값에 데이터가 몰린다면 로그 함수를 취한다면 효과가 없지 않나요?
이럴 경우에 대한 데이터 처리방법에 궁금증이 생겨 질문합니다. ㅎㅎ
감사합니다.
답변 1
0
권 철민
지식공유자
안녕하십니까
네 맞습니다. 그래서 log 변환은 right skew(positive skew)일때 적용합니다.
일반적으로 비지니스 데이터는 right skew이기 쉽습니다. 반대인 left skew는 흔하진 않아서 해당 경우에는 변환을 잘하진 않지만 변환이 필요한 경우 아래와 같은 방법을 적용할 수 있습니다.
1. 제곱을 곱해서 변환합니다. 값이 너무 커지는 특성이 있어서 잘 적용하지는 않습니다.
2. 로그 변환을 이용하되 최대값에서 해당 값을 빼서 적용합니다. 즉 최대값이 K라고 한다면 log(K - X +1) 로 변환합니다.
감사합니다.





