• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

검증데이터

21.10.17 21:56 작성 조회수 146

2

 
선생님 안녕하세요,
evals = [(X_test, y_test)] 이부분의 코드에서, 선생님께서 검증데이터로 원래 테스트 데이터를 쓰면 안되는데
데이터 부족으로 어쩔 수 없이 테스트 데이터를 넣었다고 하셨는데요
 
1. 그러면 보통 검증데이터로는 뭐가 쓰이나요?
 
2. 전체 데이터를 80퍼는 학습데이터, 20퍼는 테스트용 데이터로 분할하였는데
그 학습데이터를 쪼개서 검증데이터를 원래 가져오는건가요?
 
3. 제가 보기엔 학습데이터도 수가 많아보이는데 왜 검증용 데이터가 부족한건가요?ㅠㅠ
 
4. 만약 학습데이터가 많다면, K-Fold로 검증데이터를 원래 가져와야 맞는건가요?
 
많이 부족한 질문 죄송합니다. 수업 항상 잘 듣고 있습니다!

답변 1

답변을 작성해보세요.

2

안녕하십니까, 

1. 그러면 보통 검증데이터로는 뭐가 쓰이나요?
=> evaluation set는 보통 학습 데이터에서 검증용으로 별도 분할을 해서 사용합니다. 테스트 세트는 나중에 최종 성능 검증 시 사용합니다.
 
2. 전체 데이터를 80퍼는 학습데이터, 20퍼는 테스트용 데이터로 분할하였는데
그 학습데이터를 쪼개서 검증데이터를 원래 가져오는건가요?
=> 일반적으론 그렇습니다.
 
3. 제가 보기엔 학습데이터도 수가 많아보이는데 왜 검증용 데이터가 부족한건가요?ㅠㅠ
=> 위스콘신 학습 데이터 수가 그렇게 많지는 않습니다. 보통 만건이상 정도 있으면 좋습니다. 데이터가 적으면 어쩔수 없이, 있는 데이터를 써야 합니다.
 
4. 만약 학습데이터가 많다면, K-Fold로 검증데이터를 원래 가져와야 맞는건가요?
=> 학습 데이터가 많다면 학습 데이터에서 다시 train_test_split()으로 일정 비율 만큼의 데이터를 분할해서 검증 데이터를 만들고 이를 lightgbm 학습 시 evaluation set에 인자로 입력하면 됩니다.
 
감사합니다.