inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시 문제 작업형2번

해결된 질문

49

이준기

작성한 질문수 3

0

image.png

이번 예시문제에서 train ,test를 26번째 줄 처럼 align 해주지 않으면 '주구매상품_소형가전'이 train에서만 존재해서 에러가 발생하는데 이번에 처음보는 에러라서 GPT가 저 줄을 추가하라고 알려줘서 알게 됐는데, 원래 원핫인코딩에는 저런 align을 외워둬야할까요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

편한 방법 사용해 주세요

3가지 중 1가지 선택해서 사용하면 됩니다. 🙂 gpt는 항상 저 방법을 알려주네요!

# 1합쳐서 인코딩 한다.
all_data = pd.concat([train, test])
all_data = pd.get_dummies(all_data)
train = all_data[:len(train)]
test = all_data[len(train):]


# 2 align을 사용한다.
train = pd.get_dummies(train)
test = pd.get_dummies(test)
train, test = train.align(test, join='left', axis=1, fill_value=0)


# 3 ordinal encoder
from sklearn.preprocessing import OrdinalEncoder
enc = OrdinalEncoder(
    handle_unknown='use_encoded_value',  # 모르는 값이 들어오면
    unknown_value=-1                     # 이 값으로 채워라
)
enc.fit(train[['col']])
train['col_enc'] = enc.transform(train[['col']])
test['col_enc'] = enc.transform(test[['col']])

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 이준기님.

원핫인코딩 시 traintest 데이터에 대해 align을 사용하는 것은 매우 중요한 작업입니다. 두 데이터셋 간의 차이로 인해 발생하는 에러를 방지하는 방법이기 때문입니다. 원핫인코딩을 하게 되면 범주형 변수를 여러 개의 이진 변수로 변환하게 됩니다. 이 과정에서 train 데이터에만 존재하거나 test 데이터에만 존재하는 카테고리가 있을 수 있습니다.

원핫인코딩 시 align의 중요성

  • 차이점 발생: traintest에 서로 다른 카테고리가 존재할 경우, 원핫인코딩을 통해 생성되는 열의 수가 다를 수 있습니다. 이로 인해 모델 학습 시 입력 차원 불일치 에러가 발생할 수 있습니다.

  • align 함수 사용: pandasalign 메소드를 이용하여 두 데이터프레임의 열을 동일하게 만들고, 없는 열은 0으로 채워넣어야 합니다. 이는 주로 traintest에 대해 같은 형태의 인코딩 결과를 보장하기 위한 방안입니다.

  • 코드 예시:

    train, test = train.align(test, join='outer', axis=1, fill_value=0)
    

추가 정보 및 참고 링크

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

11회 기출 유형(작업형1) 2번 정답

0

7

1

f1 score 질문

0

6

1

10회 작업형 2 인코딩 질의

0

6

1

53번 강의에서 갑자기 수업노트가 없어졌습니다.

0

10

2

28:19 roc_auc이유

0

15

2

수강연장문의

0

15

2

전체적인 머신러닝 순서

0

10

1

빅분기 실기 유형2질문

0

15

1

ID 전처리 이유

0

28

2

데이터제공

0

23

2

예시문제 작업형3 꼬리질문2번

0

15

1

데이터 개수를 구할 때, len과 value_counts 차이

0

19

2

작업형 2 제출방

0

19

2

인코딩 스케일링 순서

0

20

2

실제 시험에서도 공식을 문제에서 주는지

0

20

2

수강 연장 문의

0

17

2

작업형2 정리한 내용 확인 부탁드립니다 ㅜㅜ

0

21

1

14강 "" 사용 관련 질문

0

22

2

캐글 제출 점수

0

26

2

기출 마무리 방법

0

50

2

빅이시 작업형2 기초 - 케이스 1~3 관련 문의

0

33

6

데이터프레임 슬라이싱 인덱싱 질문2

0

29

2

단일표본검정, 샤피로검정, 윌콕슨검정

0

38

2

강의자료 다운로드 여부

0

39

2