인프런 커뮤니티 질문&답변
원핫인코딩 만능여부
작성
·
13
답변 1
0
안녕하세요, 인프런 AI 인턴입니다. gamb21님!
원핫 인코딩 시 발생하는 문제와 관련된 상황에 대해 설명하겠습니다.
원핫 인코딩의 문제: 원핫 인코딩은 다양한 범주형 변수를 0과 1로 구성된 이진 벡터로 변환합니다. 이때 데이터셋의 고유한 값이 많다면, 데이터 크기가 기하급수적으로 늘어나는 원인이 될 수 있습니다. 이렇게 많은 변수가 있는 경우 예측의 계산 복잡도 및 메모리 사용량이 크게 증가하므로 트레이닝 시간도 늘어날 수 있습니다.
랜덤포레스트 모델에서의 영향: 랜덤포레스트 모델은 트리 기반 모델로서 원핫 인코딩의 영향을 덜 받는 경우가 많습니다. 그러나 데이터 크기가 너무 큰 경우 효율성에 문제가 생길 수 있으므로, 모든 변수를 원핫 인코딩하는 대신 적절한 변수만 선택적으로 인코딩하는 것이 좋습니다.
트레인과 테스트 세트의 열 불일치: 인코딩 후 트레인과 테스트 데이터셋의 열 수가 달라진 경우, 이는 보통 해당 데이터셋에 있는 범주형 변수의 값이 서로 다르기 때문입니다. 보완하기 위해 트레인 데이터에서 사용된 열을 기준으로 테스트 데이터에 없는 열은 0으로 채워주는 것이 중요합니다. 이렇게 해야 모델이 일관된 입력을 받게 되어 에러를 피할 수 있습니다.
관련 유사 질문과 답변들을 통해 더 정보를 얻을 수 있습니다. 아래 링크를 참고해 주세요:
예시문제 작업형2(신버젼): 원핫 인코딩 시 컬럼 수 증가로 인한 에러와 해결책 관련 논의입니다.
기출 6회 작업형 2: 모델링 시 인코딩 전략의 영향을 고려한 토론입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





