원핫인코딩 만능여부

Question

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요 먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요 해당 문제에서 원핫인코딩 사용시 (4116, 18) (1764, 18) (4116, 4159) (1764, 1807) 보시는 것처럼 엄청 늘어나게 되는데 그대로 랜덤포레스트로 예측하고 제출해도 괜찮을까요? 그리고 인코딩이후에 트레인과 테스트의 열의 수가 다르면 뭔가 잘못된건가요?

퇴근후딴짓 · Answer

8회 데이터를 시험보다 어렵게 출제했습니다. (실제 시험은 ID 없었음) ID를 삭제 하지 않으면 그냥 인코딩 시 컬럼 수가 차이가 나서 에러가 발생합니다. 인코딩 후 컬럼의 수는 같아야 합니다. 합쳐서 인코딩 하거나 이렇게 천단위의 컬럼은 1분 이내 작동에 무리가 있습니다. (굳이 한다면 합쳐서 라벨인코딩은 가능합니다)

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. gamb21님! 원핫 인코딩 시 발생하는 문제와 관련된 상황에 대해 설명하겠습니다. 원핫 인코딩의 문제 : 원핫 인코딩은 다양한 범주형 변수를 0과 1로 구성된 이진 벡터로 변환합니다. 이때 데이터셋의 고유한 값이 많다면, 데이터 크기가 기하급수적으로 늘어나는 원인이 될 수 있습니다. 이렇게 많은 변수가 있는 경우 예측의 계산 복잡도 및 메모리 사용량이 크게 증가하므로 트레이닝 시간도 늘어날 수 있습니다. 랜덤포레스트 모델에서의 영향 : 랜덤포레스트 모델은 트리 기반 모델로서 원핫 인코딩의 영향을 덜 받는 경우가 많습니다. 그러나 데이터 크기가 너무 큰 경우 효율성에 문제가 생길 수 있으므로, 모든 변수를 원핫 인코딩하는 대신 적절한 변수만 선택적으로 인코딩하는 것이 좋습니다. 트레인과 테스트 세트의 열 불일치 : 인코딩 후 트레인과 테스트 데이터셋의 열 수가 달라진 경우, 이는 보통 해당 데이터셋에 있는 범주형 변수의 값이 서로 다르기 때문입니다. 보완하기 위해 트레인 데이터에서 사용된 열을 기준으로 테스트 데이터에 없는 열은 0으로 채워주는 것이 중요합니다. 이렇게 해야 모델이 일관된 입력을 받게 되어 에러를 피할 수 있습니다. 관련 유사 질문과 답변들을 통해 더 정보를 얻을 수 있습니다. 아래 링크를 참고해 주세요: 예시문제 작업형2(신버젼) : 원핫 인코딩 시 컬럼 수 증가로 인한 에러와 해결책 관련 논의입니다. 기출 6회 작업형 2 : 모델링 시 인코딩 전략의 영향을 고려한 토론입니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.