inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

XGBoost를 이용한 위스콘신 유방암 예측(파이썬 Native XGBoost 사용)

xgboost 실행시 적은수의 자료이용 관련

179

김태근

작성한 질문수 32

0

xgboost 사용시 훈련자료와 테스트셋를 사용하여 평가를 하는데 있어서 

제가 가지고 있는 자료는 레이블 값이 1인 자료가 25개

레이블값이 0인 자료가 10000개가 있습니다

이런 경우에 train_test_split를 학습자료와 테스트셋으로 구분하여 실행하기에 레이블이 1인 값이 너무 적은 것 같아서

다른방법을 찾고 있습니다.

예를 들면 leave on out cross validation 방법을 xgboost적용할 수 있는지 궁금합니다.

아니면 권하는 방법이라도 알려주시면 감사하겠습니다.

python 통계 머신러닝 배워볼래요?

답변 1

0

권 철민

안녕하십니까,

레이블 1인 데이터 건수가 너무 건수가 적군요.  힘들어도 레이블이 1인 건수를 더 모으는게 좋을것 같습니다만...

어떤 방법을 쓰더라도 테스트 데이터 세트의 레이블 1인 데이터 건수는 적을 것 같습니다.

cross validation 5 로 해서 학습/평가를 일단 해보심은 어떠실지요?

안녕하세요 열심히 수강중인 학생입니다

0

60

2

정수 인덱싱

0

68

2

넘파이 오류

0

84

2

11강 numpy의 axis 축 질문 드립니다.

0

85

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

77

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

69

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

64

2

5강 강의 오류가 있어요.

0

84

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

72

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

69

3

파이썬 다운그레이 후 사이킷런 재설치

0

117

2

좋은 강의 감사합니다.

0

72

2

scoring 함수 음수값

0

67

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

100

2

분류 평가 정확도 예측

0

76

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

98

1

카카오톡 채널 있나요

0

106

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

189

2

pca 스케일링 관련하여 질문드립니다.

0

100

2

주피터 대신 구글 코랩

0

172

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

146

2

실루엣 스코어..

0

84

2

float64 null 값 처리 방법

0

102

2