인프런 커뮤니티 질문&답변

이준기

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시 문제 작업형2번

해결된 질문

작성

이번 예시문제에서 train ,test를 26번째 줄 처럼 align 해주지 않으면 '주구매상품_소형가전'이 train에서만 존재해서 에러가 발생하는데 이번에 처음보는 에러라서 GPT가 저 줄을 추가하라고 알려줘서 알게 됐는데, 원래 원핫인코딩에는 저런 align을 외워둬야할까요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

편한 방법 사용해 주세요

3가지 중 1가지 선택해서 사용하면 됩니다. 🙂 gpt는 항상 저 방법을 알려주네요!

# 1합쳐서 인코딩 한다.
all_data = pd.concat([train, test])
all_data = pd.get_dummies(all_data)
train = all_data[:len(train)]
test = all_data[len(train):]


# 2 align을 사용한다.
train = pd.get_dummies(train)
test = pd.get_dummies(test)
train, test = train.align(test, join='left', axis=1, fill_value=0)


# 3 ordinal encoder
from sklearn.preprocessing import OrdinalEncoder
enc = OrdinalEncoder(
    handle_unknown='use_encoded_value',  # 모르는 값이 들어오면
    unknown_value=-1                     # 이 값으로 채워라
)
enc.fit(train[['col']])
train['col_enc'] = enc.transform(train[['col']])
test['col_enc'] = enc.transform(test[['col']])

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 이준기님.

원핫인코딩 시 train과 test 데이터에 대해 align을 사용하는 것은 매우 중요한 작업입니다. 두 데이터셋 간의 차이로 인해 발생하는 에러를 방지하는 방법이기 때문입니다. 원핫인코딩을 하게 되면 범주형 변수를 여러 개의 이진 변수로 변환하게 됩니다. 이 과정에서 train 데이터에만 존재하거나 test 데이터에만 존재하는 카테고리가 있을 수 있습니다.

원핫인코딩 시 `align`의 중요성

차이점 발생: train과 test에 서로 다른 카테고리가 존재할 경우, 원핫인코딩을 통해 생성되는 열의 수가 다를 수 있습니다. 이로 인해 모델 학습 시 입력 차원 불일치 에러가 발생할 수 있습니다.
align 함수 사용: pandas의 align 메소드를 이용하여 두 데이터프레임의 열을 동일하게 만들고, 없는 열은 0으로 채워넣어야 합니다. 이는 주로 train과 test에 대해 같은 형태의 인코딩 결과를 보장하기 위한 방안입니다.

코드 예시:

train, test = train.align(test, join='outer', axis=1, fill_value=0)

추가 정보 및 참고 링크

원핫인코딩 및 데이터 정렬에 대해 고민하신 경우, 작업형 2유형 코드 점검 한번만 부탁드립니다.. 게시글을 참조해 보시길 추천드립니다. Posted on 2023-11-23.
train과 test 데이터를 한 번에 처리해야 하는 경우 예시문제 작업형2 코드 질문이라는 유사한 질문에서도 도움이 될 수 있는 정보를 확인하실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

이준기

작성한 질문수

전체 Q&A

질문하기

인프런 커뮤니티 질문&답변

예시 문제 작업형2번

원핫인코딩 시 align의 중요성

추가 정보 및 참고 링크

원핫인코딩 시 `align`의 중요성