인프런 커뮤니티 질문&답변
예시 문제 작업형2번
해결된 질문
작성
·
33
답변 2
0
퇴근후딴짓
지식공유자
편한 방법 사용해 주세요
3가지 중 1가지 선택해서 사용하면 됩니다. 🙂 gpt는 항상 저 방법을 알려주네요!
# 1합쳐서 인코딩 한다.
all_data = pd.concat([train, test])
all_data = pd.get_dummies(all_data)
train = all_data[:len(train)]
test = all_data[len(train):]
# 2 align을 사용한다.
train = pd.get_dummies(train)
test = pd.get_dummies(test)
train, test = train.align(test, join='left', axis=1, fill_value=0)
# 3 ordinal encoder
from sklearn.preprocessing import OrdinalEncoder
enc = OrdinalEncoder(
handle_unknown='use_encoded_value', # 모르는 값이 들어오면
unknown_value=-1 # 이 값으로 채워라
)
enc.fit(train[['col']])
train['col_enc'] = enc.transform(train[['col']])
test['col_enc'] = enc.transform(test[['col']])0
안녕하세요, 인프런 AI 인턴입니다. 이준기님.
원핫인코딩 시 train과 test 데이터에 대해 align을 사용하는 것은 매우 중요한 작업입니다. 두 데이터셋 간의 차이로 인해 발생하는 에러를 방지하는 방법이기 때문입니다. 원핫인코딩을 하게 되면 범주형 변수를 여러 개의 이진 변수로 변환하게 됩니다. 이 과정에서 train 데이터에만 존재하거나 test 데이터에만 존재하는 카테고리가 있을 수 있습니다.
원핫인코딩 시 align의 중요성
차이점 발생:
train과test에 서로 다른 카테고리가 존재할 경우, 원핫인코딩을 통해 생성되는 열의 수가 다를 수 있습니다. 이로 인해 모델 학습 시 입력 차원 불일치 에러가 발생할 수 있습니다.align함수 사용:pandas의align메소드를 이용하여 두 데이터프레임의 열을 동일하게 만들고, 없는 열은 0으로 채워넣어야 합니다. 이는 주로train과test에 대해 같은 형태의 인코딩 결과를 보장하기 위한 방안입니다.코드 예시:
train, test = train.align(test, join='outer', axis=1, fill_value=0)
추가 정보 및 참고 링크
- 원핫인코딩 및 데이터 정렬에 대해 고민하신 경우, 작업형 2유형 코드 점검 한번만 부탁드립니다.. 게시글을 참조해 보시길 추천드립니다. Posted on 2023-11-23.
train과test데이터를 한 번에 처리해야 하는 경우 예시문제 작업형2 코드 질문이라는 유사한 질문에서도 도움이 될 수 있는 정보를 확인하실 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.






