inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

LightGBM을 이용한 위스콘신 유방암 예측

검증데이터

251

HaEun Kim

작성한 질문수 4

2

 
선생님 안녕하세요,
evals = [(X_test, y_test)] 이부분의 코드에서, 선생님께서 검증데이터로 원래 테스트 데이터를 쓰면 안되는데
데이터 부족으로 어쩔 수 없이 테스트 데이터를 넣었다고 하셨는데요
 
1. 그러면 보통 검증데이터로는 뭐가 쓰이나요?
 
2. 전체 데이터를 80퍼는 학습데이터, 20퍼는 테스트용 데이터로 분할하였는데
그 학습데이터를 쪼개서 검증데이터를 원래 가져오는건가요?
 
3. 제가 보기엔 학습데이터도 수가 많아보이는데 왜 검증용 데이터가 부족한건가요?ㅠㅠ
 
4. 만약 학습데이터가 많다면, K-Fold로 검증데이터를 원래 가져와야 맞는건가요?
 
많이 부족한 질문 죄송합니다. 수업 항상 잘 듣고 있습니다!

통계 머신러닝 배워볼래요? python

답변 1

2

권 철민

안녕하십니까, 

1. 그러면 보통 검증데이터로는 뭐가 쓰이나요?
=> evaluation set는 보통 학습 데이터에서 검증용으로 별도 분할을 해서 사용합니다. 테스트 세트는 나중에 최종 성능 검증 시 사용합니다.
 
2. 전체 데이터를 80퍼는 학습데이터, 20퍼는 테스트용 데이터로 분할하였는데
그 학습데이터를 쪼개서 검증데이터를 원래 가져오는건가요?
=> 일반적으론 그렇습니다.
 
3. 제가 보기엔 학습데이터도 수가 많아보이는데 왜 검증용 데이터가 부족한건가요?ㅠㅠ
=> 위스콘신 학습 데이터 수가 그렇게 많지는 않습니다. 보통 만건이상 정도 있으면 좋습니다. 데이터가 적으면 어쩔수 없이, 있는 데이터를 써야 합니다.
 
4. 만약 학습데이터가 많다면, K-Fold로 검증데이터를 원래 가져와야 맞는건가요?
=> 학습 데이터가 많다면 학습 데이터에서 다시 train_test_split()으로 일정 비율 만큼의 데이터를 분할해서 검증 데이터를 만들고 이를 lightgbm 학습 시 evaluation set에 인자로 입력하면 됩니다.
 
감사합니다.

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

50

2

안녕하세요 열심히 수강중인 학생입니다

0

86

2

정수 인덱싱

0

86

2

넘파이 오류

0

108

2

11강 numpy의 axis 축 질문 드립니다.

0

106

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

92

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

76

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

83

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

73

2

5강 강의 오류가 있어요.

0

90

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

81

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

75

3

파이썬 다운그레이 후 사이킷런 재설치

0

128

2

좋은 강의 감사합니다.

0

79

2

scoring 함수 음수값

0

72

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

108

2

분류 평가 정확도 예측

0

87

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

114

1

카카오톡 채널 있나요

0

117

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

193

2

pca 스케일링 관련하여 질문드립니다.

0

109

2

주피터 대신 구글 코랩

0

184

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

155

2

실루엣 스코어..

0

91

2