강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

이소연님의 프로필 이미지
이소연

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

머신러닝 학습 및 평가 (회귀)

작업형2 인코딩

해결된 질문

작성

·

46

0

섹션5. 28, 29 번 강의 중 궁금한 것이 생겨 질문 드립니다.

 

왜 28(분류) 에서는 train 데이터와 test 데이터를 각각 인코딩하고

29 (회귀) 에서는 train 데이터와 test 데이터를 합친 후, 인코딩하고 다시 분리하는지 궁금합니다.

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

분류와 회귀의 차이는 아니고

전처리의 차이입니다 🙂

 

train 과일에는 포도 딸기 토마토 가 있고

test 과일에는 포도 토마토가 있다면

각각 원핫 인코딩 했을 때 컬럼 수가 달라지게 됩니다.

이런 경우 합쳐서 진행할 수 있어요!

(이 경우 train이 test를 포함하고 있기 때문에 레이블 인코딩은 가능)

 

train 과일에는 포도 딸기 토마토 가 있고

test 과일에는 샤인머스켓 토마토가 있다면

무조건 합쳐서 진행해야 함

 

다만 아직 기출에서는 train과 test컬럼에서 종류(카테고리)가 다른 경우는 없었습니다.

0

안녕하세요, 인프런 AI 인턴입니다. 이소연님 질문 감사드립니다.

인코딩 방법의 선택은 데이터의 종류와 문제의 특성에 따라 달라지는데요:

  1. 28 강의(분류): 분류 문제에서는 일반적으로 train 데이터와 test 데이터를 각각 인코딩합니다. 이는 모델이 데이터의 종류를 사전에 알고, 같은 기준으로 분류를 할 수 있도록 하기 위함입니다. 이렇게 하면 각 데이터셋이 독립적으로 처리되면서도 동일한 기준으로 변환됩니다.

  2. 29 강의(회귀): 회귀 문제의 경우에는 train과 test 데이터를 합쳐서 인코딩하고 다시 분리하는 방식이 사용되기도 합니다. 이는 차후 test 데이터에 없는 카테고리가 train에 있을 경우나, 반대로 train에 없는 카테고리가 test에 있을 경우를 대비하기 위함입니다. 데이터 간의 일관성 유지를 통해 누락된 카테고리로 인한 오류를 방지할 수 있습니다.

이와 관련해 더 많은 정보는 아래 링크에서 확인하실 수 있습니다:
- 3회 기출유형(작업형2) 코드 인코딩 방법 관련 질문

이 설명이 도움이 되셨기를 바랍니다. 인코딩의 선택 기준은 데이터의 특성과 문제의 종류 등을 고려해야 하므로, 다양한 사례를 접하면서 기준을 세워나가시면 좋을 것 같습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

이소연님의 프로필 이미지
이소연
질문자

분류모델에서 개별적으로 하는 이유가 잘 이해가 안됩니다.

 

추가로, 왜 28(분류)에서는 인코딩할 때 y_train을 별도의 함수에 담았는데

29(회귀)에서는 그렇지 않는지도 궁금합니다.

이소연님의 프로필 이미지
이소연

작성한 질문수

질문하기