인프런 커뮤니티 질문&답변
검증데이터
작성
·
249
2
선생님 안녕하세요,
evals = [(X_test, y_test)] 이부분의 코드에서, 선생님께서 검증데이터로 원래 테스트 데이터를 쓰면 안되는데
데이터 부족으로 어쩔 수 없이 테스트 데이터를 넣었다고 하셨는데요
1. 그러면 보통 검증데이터로는 뭐가 쓰이나요?
2. 전체 데이터를 80퍼는 학습데이터, 20퍼는 테스트용 데이터로 분할하였는데
그 학습데이터를 쪼개서 검증데이터를 원래 가져오는건가요?
3. 제가 보기엔 학습데이터도 수가 많아보이는데 왜 검증용 데이터가 부족한건가요?ㅠㅠ
4. 만약 학습데이터가 많다면, K-Fold로 검증데이터를 원래 가져와야 맞는건가요?
많이 부족한 질문 죄송합니다. 수업 항상 잘 듣고 있습니다!
퀴즈
결정 트리(Decision Tree) 모델이 데이터를 분할(Split)할 때 사용하는 주요 기준 지표로 가장 적절한 것은 무엇일까요?
평균 제곱 오차 (Mean Squared Error)
정보 이득 (Information Gain) 또는 지니 계수 (Gini Coefficient)
회귀 계수 (Regression Coefficient)
주성분 (Principal Component)
답변 1
2
권 철민
지식공유자
안녕하십니까,
1. 그러면 보통 검증데이터로는 뭐가 쓰이나요?
=> evaluation set는 보통 학습 데이터에서 검증용으로 별도 분할을 해서 사용합니다. 테스트 세트는 나중에 최종 성능 검증 시 사용합니다.
2. 전체 데이터를 80퍼는 학습데이터, 20퍼는 테스트용 데이터로 분할하였는데
그 학습데이터를 쪼개서 검증데이터를 원래 가져오는건가요?
=> 일반적으론 그렇습니다.
3. 제가 보기엔 학습데이터도 수가 많아보이는데 왜 검증용 데이터가 부족한건가요?ㅠㅠ
=> 위스콘신 학습 데이터 수가 그렇게 많지는 않습니다. 보통 만건이상 정도 있으면 좋습니다. 데이터가 적으면 어쩔수 없이, 있는 데이터를 써야 합니다.
4. 만약 학습데이터가 많다면, K-Fold로 검증데이터를 원래 가져와야 맞는건가요?
=> 학습 데이터가 많다면 학습 데이터에서 다시 train_test_split()으로 일정 비율 만큼의 데이터를 분할해서 검증 데이터를 만들고 이를 lightgbm 학습 시 evaluation set에 인자로 입력하면 됩니다.
감사합니다.





