inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[작업형2] 연습문제 섹션 2

원핫인코딩 concat 여부 이렇게 확인하면 되나요?

해결된 질문

50

봉동개미

작성한 질문수 22

0

train.descirbe(include='O'), test.descirbe(include='O') 한 다음에

 

범주형칼럼이 일치하고 유니크수가 같다면 바로 진행하고, 범주형칼럼이 다르다던지 유니크수가 상이하면 concat 해서 진행하면될까요?

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

네!

좀 더 정확하게는 똑같이 3개 가 나왔더라도 확인을 해보면 더~~~ 좋습니다.!

set(train[컬럼]) == set(test[컬럼]) #true면 완전 같음!!! False면 다름!

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 봉동개미님께서 공유하신 질문에 대한 답변을 드립니다.

범주형 데이터를 원핫인코딩 해야 할 때, train.describe(include='O')test.describe(include='O')를 통해 범주형 컬럼과 유니크한 값의 수를 비교하는 방법은 정확한 판단을 위한 좋은 방법입니다. 범주형 데이터가 traintest 사이에서 일치하고, 유니크 값의 수가 동일하다면 별도의 병합 없이 개별적으로 인코딩해도 무방합니다.

하지만, 범주형 컬럼이 다르거나 유니크 값의 종류가 상이하다면, traintestconcat으로 병합한 후 원핫인코딩을 진행하는 것이 바람직합니다. 이는 모든 범주형 열이 동일한 원핫인코딩을 가지도록 보장하며, 이후 인코딩된 결과물을 분할하여 사용하는 방법입니다.

이와 관련하여 참고할 수 있는 자료로는 다음 게시물을 추천드립니다:

  • 원핫 인코딩 concat: 이 게시물에서는 원핫 인코딩과 데이터 병합 시의 주의점과 유의를 다루고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

기출 11회 작업형 2_전체 데이터 학습 여부

0

10

1

예측값 결과 소수점 차이

0

15

2

기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?

0

13

0

전처리 train() test([ ])

0

13

2

작업형 1 배경지식 질문

0

16

2

옳게 풀은건지 질문드립니다!

0

12

1

roc_auc_score

0

22

2

추가질문 합니다

0

13

2

시험환경 구름

0

16

2

2유형 질문드려요

0

13

2

RandomForest vs lgb

0

22

2

전처리 관련질문

0

21

3

작업형3 기출

0

15

2

유형2에서 데이터분할 생략 가능여부

0

27

2

9회 기출 유형3 질문

0

16

2

lgb 기초편

0

12

1

괄호 사용

0

20

2

작업형 2 데이터 전처리 질문

0

20

1

11회 기출 유형 작업형1 문제 3-1

0

17

1

예시문제 작업형2 (ver2023) 질문입니다

0

19

2

Data type에 따른 처리

0

19

2

데이터 전처리 관련

0

17

2

시험에서 문제 불러오기

0

18

2

2번문제 출력값 질문

0

25

2