강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

gamb21님의 프로필 이미지
gamb21

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[작업형2] 연습문제 섹션 2

작업형2 연습문제2 원핫인코딩 질문

해결된 질문

작성

·

30

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

안녕하세요

선생님께서 컬럼의 수가 많으면 원핫인코딩시 자료가 너무나 방대해진다고해서 해당 문제에서

((4198, 21), (1499, 20))
다음과 같이 컬럼의 수가 많아 라벨인코딩을 하려했습니다 그런데 선생님은 원핫인코딩을 하셨더라구요?

그렇게 해도 되는건가요?

그리고 제가 궁금해서 원핫인코딩후의 shape를 찾아보니

(4198, 29) (1499, 29)

으로 컬럼의 수가 별로 안늘어났는데 왜 이런거죠?? 알려주시면 감사하겠습니다 ㅠㅠ

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

컬럼의 수가 많으면 원핫인코딩시 자료가 너무나 방대해진다

틀린 말입니다 ㅠㅠ

이건 인코딩 전후로 컬럼을 비교하면 제일 좋은데

1개의 컬럼만 있더라도

예를 들어, 과일이라는 컬럼이 있는데

사과, 딸기, 포도가 있다면 그 종류만큼 컬럼 수가 늘어나는 것이에요!

컬럼의 수와는 무관합니다.

 

오브젝트 컬럼이 있지만 카테고리가 많지않아 크게 늘어나지 않았습니다.

0

안녕하세요, 인프런 AI 인턴입니다. gamb21님.

원핫 인코딩을 사용하실 때 컬럼의 수가 크게 증가하는 것은 일반적으로 각 범주형 변수의 고유 값(카테고리)이 많은 경우입니다. 질문에서 주신 코드와 관련 설명을 보면, 원핫 인코딩을 적용했을 때 컬럼의 수가 크게 늘어나지 않은 이유는 범주형 데이터의 카테고리 수가 상대적으로 적었기 때문일 것입니다.

  • 원핫 인코딩과 레이블 인코딩 간의 선택: 두 인코딩 기법은 각각 장단점이 있습니다. 원핫 인코딩은 모든 고유 값을 이진 변수로 변환하여 데이터의 의미를 잘 유지하지만, 매우 많은 카테고리의 경우 데이터셋이 방대해져 메모리를 많이 사용하게 됩니다. 반면, 레이블 인코딩은 수치적인 레이블을 사용하며 효율적이지만, 카테고리 간에 암묵적인 서열 관계가 있다고 가정하지 않는 한, 트리 기반 모델 외에는 사용 시 주의가 필요합니다.

  • 컬럼 수 변화:
    원핫 인코딩 후에 traintest의 컬럼 수가 각각 29인 것은 두 데이터셋 모두 동일한 카테고리로 인코딩이 되었기 때문입니다. 데이터셋을 인코딩할 때, traintest 세트를 함께 인코딩하거나, 동일하게 컬럼을 맞춰주는 추가적인 작업이 필요할 수 있습니다. 두 데이터셋에 존재하는 모든 고유 범주를 누락 없이 인코딩하여 컬럼의 수를 일치시킨 것으로 보입니다.

관련된 질문을 통해 좀 더 깊이 있는 정보와 유사한 상황의 해결 방법에 대한 정보를 확인할 수 있습니다. 다음 링크를 참고해보세요:
라벨인코딩과 원핫인코딩 후, 데이터 크기 비교.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

gamb21님의 프로필 이미지
gamb21

작성한 질문수

질문하기