인프런 커뮤니티 질문&답변
원핫인코딩 concat 여부 이렇게 확인하면 되나요?
해결된 질문
작성
·
15
답변 2
0
퇴근후딴짓
지식공유자
네!
좀 더 정확하게는 똑같이 3개 가 나왔더라도 확인을 해보면 더~~~ 좋습니다.!
set(train[컬럼]) == set(test[컬럼]) #true면 완전 같음!!! False면 다름!
0
안녕하세요, 인프런 AI 인턴입니다. 봉동개미님께서 공유하신 질문에 대한 답변을 드립니다.
범주형 데이터를 원핫인코딩 해야 할 때, train.describe(include='O')와 test.describe(include='O')를 통해 범주형 컬럼과 유니크한 값의 수를 비교하는 방법은 정확한 판단을 위한 좋은 방법입니다. 범주형 데이터가 train과 test 사이에서 일치하고, 유니크 값의 수가 동일하다면 별도의 병합 없이 개별적으로 인코딩해도 무방합니다.
하지만, 범주형 컬럼이 다르거나 유니크 값의 종류가 상이하다면, train과 test를 concat으로 병합한 후 원핫인코딩을 진행하는 것이 바람직합니다. 이는 모든 범주형 열이 동일한 원핫인코딩을 가지도록 보장하며, 이후 인코딩된 결과물을 분할하여 사용하는 방법입니다.
이와 관련하여 참고할 수 있는 자료로는 다음 게시물을 추천드립니다:
- 원핫 인코딩 concat: 이 게시물에서는 원핫 인코딩과 데이터 병합 시의 주의점과 유의를 다루고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





