예시문제 작업형2 질문있습니다.

Question

실제 시험을 볼때는 뭔가 정신이 없을거같아서 train과 test의 unique값 차이 여부 생각하지 않고 그냥 무조건 train과 test를 concat으로 합치고 레이블 인코딩 진행한 후 train과 test를 분리하고자 하는데 이렇게 진행해도 괜찮을까요? 데이터 누수(?), 과적합가능성 있다고 들어서 질문드립니다.

퇴근후딴짓 · Answer

네, 좋습니다. 어디선가 들은 내용은 맞는 말이지만 데이터 누수(?), 과적합가능성 -> 시험에서는 이런 문제 신경 안써도 됩니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. bleufonce10님께서 작업형 2에 대한 질문을 주셨군요. 머신러닝 모델링에서 데이터의 일관성을 유지하기 위해 train과 test 데이터를 통합하여 인코딩하는 방법은 흔하게 사용됩니다. 이 방법이 적절한지 확인하고, 데이터 누수 및 과적합 가능성을 최소화하는 방법에 대해 설명드리겠습니다. 1. 데이터 통합 후 인코딩 범주형 데이터의 통일 : train과 test 데이터의 unique 값이 서로 다를 수 있습니다. 이를 방지하기 위해 통합 후 인코딩을 진행하는 것이 좋습니다. 이를 통해, 모든 데이터에 대해 동일한 기준의 인코딩을 적용할 수 있습니다. 데이터 나누기 : 인코딩 후, train과 test 데이터를 다시 분리하여 모델링을 수행하면, 테크닉적인 측면에서 일반적인 방법과 다를 바 없으므로 과적합이나 데이터 누수의 가능성은 낮습니다. 2. 데이터 누수와 과적합 데이터 누수 방지 : 데이터 누수는 통상적으로 테스트 데이터의 정보가 학습 과정에 유입되는 상황을 의미합니다. 데이터 전처리 과정에서 test 데이터의 정보가 학습에 사용되지 않도록 주의가 필요합니다. 인코딩 후 분리하는 방법은 이러한 누수의 가능성을 차단합니다. 과적합 : 과적합 가능성은 주로 모델의 복잡도나 특성의 과도한 학습에 기인합니다. 데이터 통합 자체는 과적합을 유발하지 않으므로, 모델의 복잡도를 적절히 조정하는 것이 중요합니다. 질문자님의 경우, 방법이 적절하며 일반적인 주의사항만 지키신다면 괜찮습니다. 추가로 어떤 방법이 더 효율적일지 궁금하시다면 아래 유사한 질문 링크를 활용해 주세요. 인코딩 train + test 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.