인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

Inflearn Community Q&A

qgistg's profile image
qgistg

asked

[Revised Edition] The Complete Guide to Python Machine Learning

Wisconsin Breast Cancer Prediction Using XGBoost (Using Python Native XGBoost)

xgboost 실행시 적은수의 자료이용 관련

Written on

·

121

0

xgboost 사용시 훈련자료와 테스트셋를 사용하여 평가를 하는데 있어서 

제가 가지고 있는 자료는 레이블 값이 1인 자료가 25개

레이블값이 0인 자료가 10000개가 있습니다

이런 경우에 train_test_split를 학습자료와 테스트셋으로 구분하여 실행하기에 레이블이 1인 값이 너무 적은 것 같아서

다른방법을 찾고 있습니다.

예를 들면 leave on out cross validation 방법을 xgboost적용할 수 있는지 궁금합니다.

아니면 권하는 방법이라도 알려주시면 감사하겠습니다.

python통계머신러닝 배워볼래요?

Answer 1

0

권 철민님의 프로필 이미지
권 철민
Instructor

안녕하십니까,

레이블 1인 데이터 건수가 너무 건수가 적군요.  힘들어도 레이블이 1인 건수를 더 모으는게 좋을것 같습니다만...

어떤 방법을 쓰더라도 테스트 데이터 세트의 레이블 1인 데이터 건수는 적을 것 같습니다.

cross validation 5 로 해서 학습/평가를 일단 해보심은 어떠실지요?

qgistg's profile image
qgistg

asked

Ask a question