불균형 데이터 문제

Question

안녕하세요, 선생님! 질문하기에 앞서 항상 좋은 강의를 해주셔서 감사드립니다.  다름이 아니라 저희가 다루는 데이터의 TARGET 값을 보면 0과 1의 분포가 굉장히 불균형한데 (application_train.csv에서 TARGET 값의 분포도를 보면 1은 약 8% 정도고, 나머지 92%가 0), 혹시 머신러닝 모델을 만들 때 문제가 되지 않을지 궁금합니다. 그리고 보통 이럴 떄 어떤 해결 방법이 있는지 궁금해서 질문드립니다.  제가 지금 32강 밖에 듣지 않아서 나중에 선생님께서 설명해주실 수도 있지만, 그래도 궁금해서 미리 질문드립니다.  항상 감사드립니다.

Answer

안녕하십니까,

말씀하신대로 불균형 문제가 머신러닝이 극복하기 어려운 문제중에 하나 입니다.

보통은 불균형한 타겟 데이터가 있을 때 재현율이 좋지 않습니다. 그래서 재현율을 높이기 위해서 학습 데이터의 오버 샘플링 적용, 예측시 예측 임계값을 0.5 보다 낮게 설정, LightGBM의 scale_pos_weight 등의 파라미터 설정등의 작업을 수행합니다. 그리고 말씀 드린 방법들은 재현율은 높이지만 반대로 정밀도를 하락시킬 수 있습니다.

아쉽게도 Home Credit Default 예측은 평가 지표가 ROC-AUC라 제가 위에서 언급한 방법은 강의에서 적용하지 않습니다(파이썬 머신러닝 완벽 가이드에서는 설명드리고 있습니다만..)

감사합니다.

lune_dune

불균형 데이터 문제

이 글과 비슷한 Q&A

hue를 사용할 때

q1_cols를 작성하는 부분에서 궁금한 점이 있습니다.

안녕하세요 교수님

가중치 초기화(Weight Initialization) 질문입니다.