원핫인코딩 슬라이싱 결과

Question

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요 먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요 10:12 에 결과값이 아래와 같은데, (29301, 15) (3257, 15) (29301, 107) (29301, 107) 실제로 실행을 시켜보면 107에서 108로 숫자가 늘어났습니다. (29301, 15) (3257, 15) (29301, 108) (29301, 108) 코랩에 있는 제미나이에게 물어보니 "만약 test 데이터셋에 train 데이터셋에는 없는 새로운 범주가 하나라도 있다면, data_oh 는 그 새로운 범주에 대한 더미 컬럼이 추가로 생기게 됩니다. 따라서 train_oh 보다 data_oh 의 컬럼 수가 많아질 수 있습니다." 라고 나오는데 왜 저는 결과값이 다른걸까요?

퇴근후딴짓 · Answer

타겟 컬럼때문이지 않을까 하는 의심이 듭니다. 이 코드 앞에서 실행했을까요?

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 아아님. 원핫인코딩 후에 데이터의 컬럼 수가 달라질 수 있는 주된 이유는 두 데이터셋 간의 범주형 변수에서 나타난 차이 때문입니다. train 데이터셋과 test 데이터셋의 범주형 데이터에 서로 다른 값이 있을 경우, 전체 데이터에 대해 원핫인코딩을 적용하면 추가적인 컬럼이 생성될 수 있습니다. 원핫인코딩 컬럼 불일치 이유 범주형 데이터 차이 : train 데이터셋에는 없지만 test 데이터셋에 존재하는 새로운 범주가 있을 경우, 인코딩 후 전체 데이터의 컬럼 수가 증가할 수 있습니다. 데이터 병합 전 인코딩 차이 : 일반적으로 원핫인코딩을 수행하기 전에 두 데이터셋을 병합합니다. 이는 각 범주형 변수의 모든 가능한 값을 한 번에 담아내어 컬럼 수를 일관되게 유지하기 위함입니다. 해결 방법 데이터 병합 및 인코딩 후 분리 : train 과 test 데이터를 먼저 병합한 후 원핫인코딩을 수행한 다음 다시 분리하는 방식으로 진행하면 두 데이터셋에서 동일한 컬럼을 갖도록 합니다. 관련된 내용을 찾아보실 수 있는 링크를 제공드립니다: 피처 엔지니어링 원핫인코딩 Train/Test 컬럼 불일치 사례 이 링크에서는 원핫인코딩 시 발생할 수 있는 컬럼 일관성 문제 및 해결 방법에 대해 설명하고 있습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.