예시 문제 작업형2번

이번 예시문제에서 train ,test를 26번째 줄 처럼 align 해주지 않으면 '주구매상품_소형가전'이 train에서만 존재해서 에러가 발생하는데 이번에 처음보는 에러라서 GPT가 저 줄을 추가하라고 알려줘서 알게 됐는데, 원래 원핫인코딩에는 저런 align을 외워둬야할까요?
답변 2
0
편한 방법 사용해 주세요
3가지 중 1가지 선택해서 사용하면 됩니다. 🙂 gpt는 항상 저 방법을 알려주네요!
# 1합쳐서 인코딩 한다.
all_data = pd.concat([train, test])
all_data = pd.get_dummies(all_data)
train = all_data[:len(train)]
test = all_data[len(train):]
# 2 align을 사용한다.
train = pd.get_dummies(train)
test = pd.get_dummies(test)
train, test = train.align(test, join='left', axis=1, fill_value=0)
# 3 ordinal encoder
from sklearn.preprocessing import OrdinalEncoder
enc = OrdinalEncoder(
handle_unknown='use_encoded_value', # 모르는 값이 들어오면
unknown_value=-1 # 이 값으로 채워라
)
enc.fit(train[['col']])
train['col_enc'] = enc.transform(train[['col']])
test['col_enc'] = enc.transform(test[['col']])
0
안녕하세요, 인프런 AI 인턴입니다. 이준기님.
원핫인코딩 시 train과 test 데이터에 대해 align을 사용하는 것은 매우 중요한 작업입니다. 두 데이터셋 간의 차이로 인해 발생하는 에러를 방지하는 방법이기 때문입니다. 원핫인코딩을 하게 되면 범주형 변수를 여러 개의 이진 변수로 변환하게 됩니다. 이 과정에서 train 데이터에만 존재하거나 test 데이터에만 존재하는 카테고리가 있을 수 있습니다.
원핫인코딩 시 align의 중요성
차이점 발생:
train과test에 서로 다른 카테고리가 존재할 경우, 원핫인코딩을 통해 생성되는 열의 수가 다를 수 있습니다. 이로 인해 모델 학습 시 입력 차원 불일치 에러가 발생할 수 있습니다.align함수 사용:pandas의align메소드를 이용하여 두 데이터프레임의 열을 동일하게 만들고, 없는 열은 0으로 채워넣어야 합니다. 이는 주로train과test에 대해 같은 형태의 인코딩 결과를 보장하기 위한 방안입니다.코드 예시:
train, test = train.align(test, join='outer', axis=1, fill_value=0)
추가 정보 및 참고 링크
- 원핫인코딩 및 데이터 정렬에 대해 고민하신 경우, 작업형 2유형 코드 점검 한번만 부탁드립니다.. 게시글을 참조해 보시길 추천드립니다. Posted on 2023-11-23.
train과test데이터를 한 번에 처리해야 하는 경우 예시문제 작업형2 코드 질문이라는 유사한 질문에서도 도움이 될 수 있는 정보를 확인하실 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
기출 11회 작업형 2_전체 데이터 학습 여부
0
11
1
예측값 결과 소수점 차이
0
16
2
기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?
0
13
0
전처리 train() test([ ])
0
14
2
작업형 1 배경지식 질문
0
17
2
옳게 풀은건지 질문드립니다!
0
13
1
roc_auc_score
0
22
2
추가질문 합니다
0
13
2
시험환경 구름
0
16
2
2유형 질문드려요
0
13
2
RandomForest vs lgb
0
22
2
전처리 관련질문
0
21
3
작업형3 기출
0
15
2
유형2에서 데이터분할 생략 가능여부
0
27
2
9회 기출 유형3 질문
0
17
2
lgb 기초편
0
12
1
괄호 사용
0
20
2
작업형 2 데이터 전처리 질문
0
21
1
11회 기출 유형 작업형1 문제 3-1
0
17
1
예시문제 작업형2 (ver2023) 질문입니다
0
19
2
Data type에 따른 처리
0
20
2
데이터 전처리 관련
0
17
2
시험에서 문제 불러오기
0
18
2
2번문제 출력값 질문
0
25
2





