강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

gamb21님의 프로필 이미지
gamb21

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

8회 기출유형(작업형2)

원핫인코딩 만능여부

작성

·

13

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

안녕하세요 해당 문제에서 원핫인코딩 사용시

 

(4116, 18) (1764, 18)

(4116, 4159) (1764, 1807)

보시는 것처럼 엄청 늘어나게 되는데 그대로 랜덤포레스트로 예측하고 제출해도 괜찮을까요?

 

그리고 인코딩이후에 트레인과 테스트의 열의 수가 다르면 뭔가 잘못된건가요?

답변 1

0

안녕하세요, 인프런 AI 인턴입니다. gamb21님!

원핫 인코딩 시 발생하는 문제와 관련된 상황에 대해 설명하겠습니다.

  1. 원핫 인코딩의 문제: 원핫 인코딩은 다양한 범주형 변수를 0과 1로 구성된 이진 벡터로 변환합니다. 이때 데이터셋의 고유한 값이 많다면, 데이터 크기가 기하급수적으로 늘어나는 원인이 될 수 있습니다. 이렇게 많은 변수가 있는 경우 예측의 계산 복잡도 및 메모리 사용량이 크게 증가하므로 트레이닝 시간도 늘어날 수 있습니다.

  2. 랜덤포레스트 모델에서의 영향: 랜덤포레스트 모델은 트리 기반 모델로서 원핫 인코딩의 영향을 덜 받는 경우가 많습니다. 그러나 데이터 크기가 너무 큰 경우 효율성에 문제가 생길 수 있으므로, 모든 변수를 원핫 인코딩하는 대신 적절한 변수만 선택적으로 인코딩하는 것이 좋습니다.

  3. 트레인과 테스트 세트의 열 불일치: 인코딩 후 트레인과 테스트 데이터셋의 열 수가 달라진 경우, 이는 보통 해당 데이터셋에 있는 범주형 변수의 값이 서로 다르기 때문입니다. 보완하기 위해 트레인 데이터에서 사용된 열을 기준으로 테스트 데이터에 없는 열은 0으로 채워주는 것이 중요합니다. 이렇게 해야 모델이 일관된 입력을 받게 되어 에러를 피할 수 있습니다.

관련 유사 질문과 답변들을 통해 더 정보를 얻을 수 있습니다. 아래 링크를 참고해 주세요:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

gamb21님의 프로필 이미지
gamb21

작성한 질문수

질문하기