검증데이터

Question

선생님 안녕하세요, evals = [(X_test, y_test)] 이부분의 코드에서, 선생님께서 검증데이터로 원래 테스트 데이터를 쓰면 안되는데 데이터 부족으로 어쩔 수 없이 테스트 데이터를 넣었다고 하셨는데요 1. 그러면 보통 검증데이터로는 뭐가 쓰이나요? 2. 전체 데이터를 80퍼는 학습데이터, 20퍼는 테스트용 데이터로 분할하였는데 그 학습데이터를 쪼개서 검증데이터를 원래 가져오는건가요? 3. 제가 보기엔 학습데이터도 수가 많아보이는데 왜 검증용 데이터가 부족한건가요?ㅠㅠ 4. 만약 학습데이터가 많다면, K-Fold로 검증데이터를 원래 가져와야 맞는건가요? 많이 부족한 질문 죄송합니다. 수업 항상 잘 듣고 있습니다!

권 철민 · Answer

안녕하십니까, 1. 그러면 보통 검증데이터로는 뭐가 쓰이나요? => evaluation set는 보통 학습 데이터에서 검증용으로 별도 분할을 해서 사용합니다. 테스트 세트는 나중에 최종 성능 검증 시 사용합니다. 2. 전체 데이터를 80퍼는 학습데이터, 20퍼는 테스트용 데이터로 분할하였는데 그 학습데이터를 쪼개서 검증데이터를 원래 가져오는건가요? => 일반적으론 그렇습니다. 3. 제가 보기엔 학습데이터도 수가 많아보이는데 왜 검증용 데이터가 부족한건가요?ㅠㅠ => 위스콘신 학습 데이터 수가 그렇게 많지는 않습니다. 보통 만건이상 정도 있으면 좋습니다. 데이터가 적으면 어쩔수 없이, 있는 데이터를 써야 합니다. 4. 만약 학습데이터가 많다면, K-Fold로 검증데이터를 원래 가져와야 맞는건가요? => 학습 데이터가 많다면 학습 데이터에서 다시 train_test_split()으로 일정 비율 만큼의 데이터를 분할해서 검증 데이터를 만들고 이를 lightgbm 학습 시 evaluation set에 인자로 입력하면 됩니다. 감사합니다.