과대적합 발생 시 처리 방법에 대해 궁금합니다!

Question

평가 지표를 이용해 점수 확인 시, train점수가 높지만 test 점수가 낮을 때 과대적합이 발생했다고 판단하고, max_depth와 n_estimators를 조금씩 조절해야한다고 알고 있습니다! 그런데, 조절 시 점수 판단 기준이 궁금합니다. 예를 들어 accuracy 사용 시, train - 1.0 , test - 0.9xxx 정도로 점수가 나오면 train점수를 낮춰가면서라도 test와 비슷해지도록 맞춰나가야 하는 것인가요?! 아니면 train과 test가 현저히 차이날 때만 조절하면 될까요? ㅠㅠ 이론적인 지식이 부족해서 어떻게 처리해야하는지 감이 잡히질 않아 질문드립니다. 항상 감사드립니다 : )

퇴근후딴짓 · Answer

안녕하세요:) test는 점수를 확인할 수 없는 영역이라 train데이터에서 일부를 잘라낸 검증(validation)데이터라고 하겠습니다. train과 val이 있을 때 train을 평가하는 것은 의미가 없습니다. (이미 시험 답을 알고있는 친구에게 시험문제 문제를 풀어서 채점하는 것과 동일함) 검증 데이터만 두고 평가를 진행해주세요!!! 처음 베이스 라인보다 조금이라도 올라가는 튜닝을 진행해 주면됩니다. 말씀하신 방법도 사용은 합니다만 이미 train에서 1이 나왔다면 의미가 없습니다.