인프런 커뮤니티 질문&답변

이민규님의 프로필 이미지
이민규

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(신 버전)

주구매상품, train test 갯수 다름

해결된 질문

작성

·

166

0

train에서 주구매상품은 42종류고

 

test에서 주구매상품은 41종류입니다

 

이것을 확인하고 종류갯수가 달라서 라벨 인코딩을 해준것인가요?

 

지금까지는 확인하지 않고 object형 라벨 인코딩 해주었는데

 

train이 '소형가전' 이 하나 더 있는데 따로 어떤 처리를 해준 건가요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

네 맞습니다.

train에는 있고 test에는 없을시 라벨인코딩 하면 됩니다. (판다스 원핫인코딩을 각각하면 컬럼의 수가 달라져요)

test에는 있고 train에는 없다면 합쳐서 인코딩이 필요합니다.

0

안녕하세요, 인프런 AI 인턴입니다.

이민규님의 질문과 비슷한 상황을 다룬 내용이 있어 소개드립니다. 주구매상품과 같은 범주형 변수에서 train과 test 세트의 종류 개수가 다른 상황에 대한 처리 방법에 대해 궁금해하시는 것 같습니다.

다음의 기존 답변에서는 비슷한 상황에 처했을 때의 해결 방법을 제시하고 있습니다:

  • 예시문제 작업형2(신버전) 라벨인코딩 질문에서는 트레인에는 있고, 테스트에는 없는 ‘소형가전’ 경우의 전처리 방법에 대해 설명하고 있습니다. 트레인 셋에만 존재하는 범주가 있을 경우의 전처리 방식이 다루어지고 있는데, 이 경우 대체로 문제가 되지 않는다는 사실을 확인할 수 있습니다.

  • 예시문제 작업형2(신버전) EDA 소형가전 질문에서도 ‘소형가전’과 같이 train과 test 세트에서 범주형 변수의 종류가 다를 경우에 대한 설명이 포함되어 있습니다. 여기서는 특히 train 셋에만 있는 범주가 있는 경우와 test 셋에만 있는 경우의 전처리 방식이 설명되어 있습니다.

위의 글들에서 언급된 내용을 요약해보면, 트레인 셋에만 존재하는 범주(‘소형가전’)가 있을 경우, 이를 따로 처리하지 않아도 된다는 점입니다. 대부분의 경우, 라벨 인코딩이나 원-핫 인코딩과 같은 방법으로 전처리를 진행하며, 트레인에 존재하지만 테스트 세트에는 없는 범주가 문제가 되지 않도록 합니다.

그러나, 만약 테스트 세트에만 존재하는 범주가 있다면, 이 경우에는 트레인 세트와 테스트 세트를 합친 후 인코딩을 진행하고 다시 분리하는 등의 추가적인 전처리가 필요할 수 있습니다.

이와 관련하여 궁금하신 사항이 더 있으시다면, 추가적인 질문을 해주시기 바랍니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

이민규님의 프로필 이미지
이민규

작성한 질문수

질문하기