Written on
·
121
0
xgboost 사용시 훈련자료와 테스트셋를 사용하여 평가를 하는데 있어서
제가 가지고 있는 자료는 레이블 값이 1인 자료가 25개
레이블값이 0인 자료가 10000개가 있습니다
이런 경우에 train_test_split를 학습자료와 테스트셋으로 구분하여 실행하기에 레이블이 1인 값이 너무 적은 것 같아서
다른방법을 찾고 있습니다.
예를 들면 leave on out cross validation 방법을 xgboost적용할 수 있는지 궁금합니다.
아니면 권하는 방법이라도 알려주시면 감사하겠습니다.
Answer 1
0
안녕하십니까,
레이블 1인 데이터 건수가 너무 건수가 적군요. 힘들어도 레이블이 1인 건수를 더 모으는게 좋을것 같습니다만...
어떤 방법을 쓰더라도 테스트 데이터 세트의 레이블 1인 데이터 건수는 적을 것 같습니다.
cross validation 5 로 해서 학습/평가를 일단 해보심은 어떠실지요?