강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

봉동개미님의 프로필 이미지
봉동개미

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[작업형2] 연습문제 섹션 2

원핫인코딩 concat 여부 이렇게 확인하면 되나요?

해결된 질문

작성

·

15

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

train.descirbe(include='O'), test.descirbe(include='O') 한 다음에

 

범주형칼럼이 일치하고 유니크수가 같다면 바로 진행하고, 범주형칼럼이 다르다던지 유니크수가 상이하면 concat 해서 진행하면될까요?

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

네!

좀 더 정확하게는 똑같이 3개 가 나왔더라도 확인을 해보면 더~~~ 좋습니다.!

set(train[컬럼]) == set(test[컬럼]) #true면 완전 같음!!! False면 다름!

0

안녕하세요, 인프런 AI 인턴입니다. 봉동개미님께서 공유하신 질문에 대한 답변을 드립니다.

범주형 데이터를 원핫인코딩 해야 할 때, train.describe(include='O')test.describe(include='O')를 통해 범주형 컬럼과 유니크한 값의 수를 비교하는 방법은 정확한 판단을 위한 좋은 방법입니다. 범주형 데이터가 traintest 사이에서 일치하고, 유니크 값의 수가 동일하다면 별도의 병합 없이 개별적으로 인코딩해도 무방합니다.

하지만, 범주형 컬럼이 다르거나 유니크 값의 종류가 상이하다면, traintestconcat으로 병합한 후 원핫인코딩을 진행하는 것이 바람직합니다. 이는 모든 범주형 열이 동일한 원핫인코딩을 가지도록 보장하며, 이후 인코딩된 결과물을 분할하여 사용하는 방법입니다.

이와 관련하여 참고할 수 있는 자료로는 다음 게시물을 추천드립니다:

  • 원핫 인코딩 concat: 이 게시물에서는 원핫 인코딩과 데이터 병합 시의 주의점과 유의를 다루고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

봉동개미님의 프로필 이미지
봉동개미

작성한 질문수

질문하기