강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

김태근님의 프로필 이미지
김태근

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

XGBoost를 이용한 위스콘신 유방암 예측(파이썬 Native XGBoost 사용)

xgboost 실행시 적은수의 자료이용 관련

작성

·

174

0

xgboost 사용시 훈련자료와 테스트셋를 사용하여 평가를 하는데 있어서 

제가 가지고 있는 자료는 레이블 값이 1인 자료가 25개

레이블값이 0인 자료가 10000개가 있습니다

이런 경우에 train_test_split를 학습자료와 테스트셋으로 구분하여 실행하기에 레이블이 1인 값이 너무 적은 것 같아서

다른방법을 찾고 있습니다.

예를 들면 leave on out cross validation 방법을 xgboost적용할 수 있는지 궁금합니다.

아니면 권하는 방법이라도 알려주시면 감사하겠습니다.

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

레이블 1인 데이터 건수가 너무 건수가 적군요.  힘들어도 레이블이 1인 건수를 더 모으는게 좋을것 같습니다만...

어떤 방법을 쓰더라도 테스트 데이터 세트의 레이블 1인 데이터 건수는 적을 것 같습니다.

cross validation 5 로 해서 학습/평가를 일단 해보심은 어떠실지요?

김태근님의 프로필 이미지
김태근

작성한 질문수

질문하기