불균형 데이터 문제

Question

안녕하세요, 선생님! 질문하기에 앞서 항상 좋은 강의를 해주셔서 감사드립니다. 다름이 아니라 저희가 다루는 데이터의 TARGET 값을 보면 0과 1의 분포가 굉장히 불균형한데 ( application_train.csv에서 TARGET 값의 분포도를 보면 1은 약 8% 정도고, 나머지 92%가 0 ), 혹시 머신러닝 모델을 만들 때 문제가 되지 않을지 궁금합니다. 그리고 보통 이럴 떄 어떤 해결 방법이 있는지 궁금해서 질문드립니다. 제가 지금 32강 밖에 듣지 않아서 나중에 선생님께서 설명해주실 수도 있지만, 그래도 궁금해서 미리 질문드립니다. 항상 감사드립니다.

권 철민 · Answer

안녕하십니까, 말씀하신대로 불균형 문제가 머신러닝이 극복하기 어려운 문제중에 하나 입니다. 보통은 불균형한 타겟 데이터가 있을 때 재현율이 좋지 않습니다. 그래서 재현율을 높이기 위해서 학습 데이터의 오버 샘플링 적용, 예측시 예측 임계값을 0.5 보다 낮게 설정, LightGBM의 scale_pos_weight 등의 파라미터 설정등의 작업을 수행합니다. 그리고 말씀 드린 방법들은 재현율은 높이지만 반대로 정밀도를 하락시킬 수 있습니다. 아쉽게도 Home Credit Default 예측은 평가 지표가 ROC-AUC라 제가 위에서 언급한 방법은 강의에서 적용하지 않습니다(파이썬 머신러닝 완벽 가이드에서는 설명드리고 있습니다만..) 감사합니다.