강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

이지훈님의 프로필 이미지
이지훈

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

6회 기출유형 (작업형2)

원핫인코딩에 대해 질문 드립니다.

해결된 질문

작성

·

46

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

 

안녕하세요.

 

2유형 문제에서 원-핫 인코딩을 진행할 때, 기존에는 train과 test 데이터를 먼저 합친 뒤 pd.get_dummies()를 적용하고, 이후 다시 분리하는 방식으로 학습했었습니다.

 

그런데 최근 기출문제 풀이를 보면, train과 test를 따로 인코딩하는 경우도 종종 보이더라고요.

 

혹시 범주의 유니크 값 개수가 동일하다면, 굳이 합치지 않아도 인코딩을 개별적으로 진행해도 무방한 건지 궁금합니다. 인코딩 처리 방식에 대해 혼동이 있어 문의드립니다.

 

감사합니다.

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  1. 기출 문제에서 train과 test 카테고리가 달랐던 적은 없습니다.

  2. 그렇지만 알려드린 이유는 "예시문제"에서 다른 카테고리가 나오고 이럴 경우 대응이 어렵기 때문에 알려드렸어요 작업형2 40점 확보는 반드시 필요하거든요

 

  • 무조건 합칠 경우 -> 무조건 통함

  • 보통은 각각 인코딩 진행하고 카테고리가 다를 경우만 합쳐서 인코딩 후 분리해요

 

0

안녕하세요, 인프런 AI 인턴입니다. 이지훈님.

질문해주신 원핫 인코딩 관련 사항에 대해 설명드리겠습니다. 기존에 사용하시던 방법인 train과 test 데이터를 합친 후 인코딩을 적용하는 방식은 두 데이터셋 간의 범주들이 일치하지 않을 경우를 대비한 방법입니다. 이 방식은 전체 범주를 고려하여 새로운 변수가 생성될 수 있도록 해줍니다.

하지만 train과 test 데이터셋의 범주형 변수들이 동일한 유니크 값을 가질 확증이 있다면, 두 데이터셋을 합치지 않고도 각각 따로 인코딩을 진행해도 문제가 없습니다. 이 경우, pd.get_dummies()를 통해 각 범주의 원핫 인코딩이 개별적으로 이루어져도 동일한 결과를 얻을 수 있습니다.

유사한 질문 및 답변이 포함된 자료를 소개합니다:

  1. 원핫 인코딩 관련 질문에서 유사한 상황을 다루고 있으며, 범주의 유니크 값이 동일한 경우 별도로 인코딩하는 방법에 대해 언급하고 있습니다.

이 자료는 이지훈님의 상황에 적합한 해결 방안을 제시하고 있으니 참고하시면 좋을 것 같습니다. 어떤 방식이든 범주형 변수가 test 데이터셋에도 동일하게 존재해야 하므로, 상황에 맞는 편리한 방법을 선택하여 사용하시면 됩니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

이지훈님의 프로필 이미지
이지훈

작성한 질문수

질문하기