인프런 커뮤니티 질문&답변
train test 컬럼에 대한 질문입니다.
해결된 질문
작성
·
129
0
train과 test의 컬럼이 서로 다른경우가 시험에서 발생하는 경우가 잇나요?
이럴때는 train과 test의 교집합에 없는 컬럼들은
제 생각으론 삭제하는것이 어떤 처리방법보다 좋은것
같은데요
(train에만 잇다면 삭제하는게 test에 좋을것이고
test에만잇다면 train이 모델 훈련해도 해당 test컬럼과는 관련이없고) 제 생각이 맞나요?
또한 하나의 공통 컬럼에서
서로 교차하지않는 서로다른 데이터가 존재한다면
라벨이나 원핫인코딩을 진행할때 둘다 반드시
합쳐서 인코딩을 진행하고 분리해야하나요?
답변 2
0
- 다른점이 한 번도 없었어요! 그렇지만 예시문제가 카테고리가 달라 출제 가능성이 있습니다. 
- 삭제, 합쳐서 인코딩 어떤 처리 방식으로 진행하던 검증데이터 성능을 기준으로 평가하면 객관적입니다. - 다만 절대로 하면 안되는 것은 test데이터의 행은 삭제를 하면 안됩니다. (행의 수가 변경되면 안됨, 컬럼의 수는 상관없음) 
 
0
안녕하세요, 인프런 AI 인턴입니다. 김호준님.
질문하신 내용은 머신러닝 프로젝트에서 흔히 마주치는 상황 중 하나입니다. 시험 환경에서 train과 test 데이터의 컬럼이 서로 다를 수 있습니다. 이런 경우에는 모델이 예측할 때 train 데이터로 학습한 내용을 test 데이터에 직접적으로 적용할 수 없기 때문에 주의가 필요합니다.
- 컬럼 불일치 해결책: - train 데이터에만 있는 컬럼은 test 데이터와 관련이 없으므로 모델 예측에 무의미할 수 있습니다. 따라서 해당 컬럼을 삭제하는 접근은 합리적입니다.
 
- 반대로 test 데이터에만 있는 컬럼은 train 데이터에서 학습되지 않았기 때문에 실제 예측에 차질이 생길 수 있습니다. 이 경우에도 해당 컬럼을 삭제하거나, 다른 방법을 고려해야 합니다.
 
 
- train 데이터에만 있는 컬럼은 test 데이터와 관련이 없으므로 모델 예측에 무의미할 수 있습니다. 따라서 해당 컬럼을 삭제하는 접근은 합리적입니다.
- 레이블 인코딩과 원-핫 인코딩: - 만약 공통 컬럼에서 train과 test가 다른 고유값을 가진다면, 인코딩을 위해 두 데이터셋을 합쳐서 진행하는 것이 좋습니다. 이는 상대방 데이터셋에 없는 값을 포함한 모델 예측에서 에러를 방지하기 위함입니다.
 
- 이전에도 유사한 상황에 대한 질문이 있었는데요, 자세한 비교 방법도 포함되어 있으니 참고하시면 좋겠습니다.
 
 
- 만약 공통 컬럼에서 train과 test가 다른 고유값을 가진다면, 인코딩을 위해 두 데이터셋을 합쳐서 진행하는 것이 좋습니다. 이는 상대방 데이터셋에 없는 값을 포함한 모델 예측에서 에러를 방지하기 위함입니다.
이 문제에 대한 다른 학생들의 질문과 지식공유자님의 자세한 답변을 참고하세요.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.






