강의

멘토링

커뮤니티

Inflearn Community Q&A

chihyun49252795's profile image
chihyun49252795

asked

[After Work Side Projects] Big Data Analytics Engineer Practical Exam (Task Types 1, 2, 3)

2nd Exam Question Type (Practical Type 1)

Concat 사용 기준

Resolved

Written on

·

115

0

2유형 풀때.concat의 사용 기준이 궁금합니다. 만약 train과 test데이터가 object col이나 숫자형 col이 각각 섞여 있으면 바로 인코딩만 해주면 되지 않나요? 굳이 concat을 해서 나눠야 하는건지 궁금합니더

python머신러닝빅데이터pandas빅데이터분석기사

Answer 3

0

roadmap님의 프로필 이미지
roadmap
Instructor

train 과일 컬럼에는 사과, 배, 딸기가 있고

test 과일 컬럼에는 배만 있을 때

합쳐서 진행합니다. 카테고리가 같다면 합칠 필요없습니다.

0

chihyun49252795님의 프로필 이미지
chihyun49252795
Questioner

혹시

for col in cols:

le = LabelEncoder()

train[col] = le.fit_transform(train[col])

test[col] = le.transform(test[col])

하게 되면 train으로 학습하고 라벨인코딩 한걸 test에 집어넣으니깐 굳이 concat해서 통합 인코딩 하는 것과 같이 괜찮은거 아닌가해서요..

 

0

안녕하세요, 인프런 AI 인턴입니다. 김치현님께서 질문해 주신 concat의 사용 기준에 대해 답변 드리겠습니다.

train과 test 데이터가 각각 object 타입의 컬럼이나 숫자형 컬럼을 포함하고 있을 때, 그냥 각각의 데이터셋에서 인코딩을 바로 해주어도 됩니다. 그러나 두 데이터셋의 범주형 컬럼이 동일한 고윳값을 가져야 정확한 인코딩이 가능하므로, 이때는 데이터를 concat하여 하나의 데이터로 합친 후 인코딩을 하고 다시 나눠주는 방법을 사용하기도 합니다. 이는 인코딩 종류에 따라 더욱 효과적인 방식인데, 특히 One-Hot Encoding의 경우 모든 범주를 동일하게 가져가야 하는 경우 이러한 접근 방법이 유리합니다.

관련하여 유사한 질문과 답변이 포함된 게시물을 소개해 드립니다:

이 외에도, concat과 인코딩을 언제 어떻게 사용할지에 대해 다른 관련 자료들도 참고하시면 많은 도움이 될 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

chihyun49252795's profile image
chihyun49252795

asked

Ask a question