inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

캐글 Advanced 머신러닝 실전 박치기

불균형 데이터 문제

437

lune_dune

작성한 질문수 1

0

안녕하세요, 선생님! 질문하기에 앞서 항상 좋은 강의를 해주셔서 감사드립니다.
 
다름이 아니라 저희가 다루는 데이터의 TARGET 값을 보면 0과 1의 분포가 굉장히 불균형한데 (application_train.csv에서 TARGET 값의 분포도를 보면 1은 약 8% 정도고, 나머지 92%가 0), 혹시 머신러닝 모델을 만들 때 문제가 되지 않을지 궁금합니다. 그리고 보통 이럴 떄 어떤 해결 방법이 있는지 궁금해서 질문드립니다.
 
제가 지금 32강 밖에 듣지 않아서 나중에 선생님께서 설명해주실 수도 있지만, 그래도 궁금해서 미리 질문드립니다.
 
항상 감사드립니다.

kaggle 머신러닝 배워볼래요?

답변 1

0

권 철민

안녕하십니까, 

말씀하신대로 불균형 문제가 머신러닝이 극복하기 어려운 문제중에 하나 입니다. 

보통은 불균형한 타겟 데이터가 있을 때 재현율이 좋지 않습니다. 그래서 재현율을 높이기 위해서 학습 데이터의 오버 샘플링 적용, 예측시 예측 임계값을 0.5 보다 낮게 설정, LightGBM의 scale_pos_weight 등의 파라미터 설정등의 작업을 수행합니다.  그리고 말씀 드린 방법들은 재현율은 높이지만 반대로 정밀도를 하락시킬 수 있습니다.

아쉽게도 Home Credit Default 예측은 평가 지표가 ROC-AUC라 제가 위에서 언급한 방법은 강의에서 적용하지 않습니다(파이썬 머신러닝 완벽 가이드에서는 설명드리고 있습니다만..)

감사합니다. 

sql사용

0

58

2

좋은 강의 감사드립니다.

0

82

2

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

0

263

2

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

0

628

1

안녕하세요 선생님

0

238

1

권철민교수님 진심으로 감사드립니다.

0

323

1

안녕하세요 선생님

0

360

1

# credit_card_balance 데이터셋 피쳐엔지니어링

0

278

1

초거대 데이터셋을 Submission하려면?

0

195

1

Library 관련 질문

0

363

3

최적화 함수 에러

0

602

4

LightGBM Iteration관련

0

434

2

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

0

209

1

코드를 실행했는데 오류가 발생합니다

0

2012

2

bayes_opt 회귀 모델에 적용하려면..

0

271

1

타겟값의 로그변환에 대해서

0

791

1

아나콘다 환경설정

0

468

1

깃허브 주소 문의드립니다.

0

364

1

손실함수에 대한 질문

0

351

1

card_bal 데이터셋 시각화 관련 질문입니다

0

238

1

LGBM null값 처리에 관해 질문있습니다

0

548

1

컬럼 관련 질문

0

285

1

히스토그램 x 값

0

373

1

n_iter 횟수 넘음 질문

0

503

2