검증데이터

Question

선생님 안녕하세요, evals = [(X_test, y_test)] 이부분의 코드에서, 선생님께서 검증데이터로 원래 테스트 데이터를 쓰면 안되는데 데이터 부족으로 어쩔 수 없이 테스트 데이터를 넣었다고 하셨는데요  1. 그러면 보통 검증데이터로는 뭐가 쓰이나요?   2. 전체 데이터를 80퍼는 학습데이터, 20퍼는 테스트용 데이터로 분할하였는데 그 학습데이터를 쪼개서 검증데이터를 원래 가져오는건가요?   3. 제가 보기엔 학습데이터도 수가 많아보이는데 왜 검증용 데이터가 부족한건가요?ㅠㅠ  4. 만약 학습데이터가 많다면, K-Fold로 검증데이터를 원래 가져와야 맞는건가요?   많이 부족한 질문 죄송합니다. 수업 항상 잘 듣고 있습니다!

Answer

안녕하십니까, 1. 그러면 보통 검증데이터로는 뭐가 쓰이나요?  => evaluation set는 보통 학습 데이터에서 검증용으로 별도 분할을 해서 사용합니다. 테스트 세트는 나중에 최종 성능 검증 시 사용합니다.   2. 전체 데이터를 80퍼는 학습데이터, 20퍼는 테스트용 데이터로 분할하였는데 그 학습데이터를 쪼개서 검증데이터를 원래 가져오는건가요?  => 일반적으론 그렇습니다.  3. 제가 보기엔 학습데이터도 수가 많아보이는데 왜 검증용 데이터가 부족한건가요?ㅠㅠ => 위스콘신 학습 데이터 수가 그렇게 많지는 않습니다. 보통 만건이상 정도 있으면 좋습니다. 데이터가 적으면 어쩔수 없이, 있는 데이터를 써야 합니다.   4. 만약 학습데이터가 많다면, K-Fold로 검증데이터를 원래 가져와야 맞는건가요?  => 학습 데이터가 많다면 학습 데이터에서 다시 train_test_split()으로 일정 비율 만큼의 데이터를 분할해서 검증 데이터를 만들고 이를 lightgbm 학습 시 evaluation set에 인자로 입력하면 됩니다.   감사합니다.

HaEun Kim

검증데이터

이 글과 비슷한 Q&A

4-2 작업형 1 모의문제2 문제4

카카오톡 채널 및 챗봇 생성하기 1분 30초에서 진행하고 있는데요

기출 3회 작업형2 예측부분 오류

데이터 결측치 채울 때 기준데이터