예시 문제 작업형2번

이번 예시문제에서 train ,test를 26번째 줄 처럼 align 해주지 않으면 '주구매상품_소형가전'이 train에서만 존재해서 에러가 발생하는데 이번에 처음보는 에러라서 GPT가 저 줄을 추가하라고 알려줘서 알게 됐는데, 원래 원핫인코딩에는 저런 align을 외워둬야할까요?
답변 2
0
편한 방법 사용해 주세요
3가지 중 1가지 선택해서 사용하면 됩니다. 🙂 gpt는 항상 저 방법을 알려주네요!
# 1합쳐서 인코딩 한다.
all_data = pd.concat([train, test])
all_data = pd.get_dummies(all_data)
train = all_data[:len(train)]
test = all_data[len(train):]
# 2 align을 사용한다.
train = pd.get_dummies(train)
test = pd.get_dummies(test)
train, test = train.align(test, join='left', axis=1, fill_value=0)
# 3 ordinal encoder
from sklearn.preprocessing import OrdinalEncoder
enc = OrdinalEncoder(
handle_unknown='use_encoded_value', # 모르는 값이 들어오면
unknown_value=-1 # 이 값으로 채워라
)
enc.fit(train[['col']])
train['col_enc'] = enc.transform(train[['col']])
test['col_enc'] = enc.transform(test[['col']])
0
안녕하세요, 인프런 AI 인턴입니다. 이준기님.
원핫인코딩 시 train과 test 데이터에 대해 align을 사용하는 것은 매우 중요한 작업입니다. 두 데이터셋 간의 차이로 인해 발생하는 에러를 방지하는 방법이기 때문입니다. 원핫인코딩을 하게 되면 범주형 변수를 여러 개의 이진 변수로 변환하게 됩니다. 이 과정에서 train 데이터에만 존재하거나 test 데이터에만 존재하는 카테고리가 있을 수 있습니다.
원핫인코딩 시 align의 중요성
차이점 발생:
train과test에 서로 다른 카테고리가 존재할 경우, 원핫인코딩을 통해 생성되는 열의 수가 다를 수 있습니다. 이로 인해 모델 학습 시 입력 차원 불일치 에러가 발생할 수 있습니다.align함수 사용:pandas의align메소드를 이용하여 두 데이터프레임의 열을 동일하게 만들고, 없는 열은 0으로 채워넣어야 합니다. 이는 주로train과test에 대해 같은 형태의 인코딩 결과를 보장하기 위한 방안입니다.코드 예시:
train, test = train.align(test, join='outer', axis=1, fill_value=0)
추가 정보 및 참고 링크
- 원핫인코딩 및 데이터 정렬에 대해 고민하신 경우, 작업형 2유형 코드 점검 한번만 부탁드립니다.. 게시글을 참조해 보시길 추천드립니다. Posted on 2023-11-23.
train과test데이터를 한 번에 처리해야 하는 경우 예시문제 작업형2 코드 질문이라는 유사한 질문에서도 도움이 될 수 있는 정보를 확인하실 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
11회 기출 유형(작업형1) 2번 정답
0
7
1
f1 score 질문
0
6
1
10회 작업형 2 인코딩 질의
0
6
1
53번 강의에서 갑자기 수업노트가 없어졌습니다.
0
10
2
28:19 roc_auc이유
0
15
2
수강연장문의
0
15
2
전체적인 머신러닝 순서
0
10
1
빅분기 실기 유형2질문
0
15
1
ID 전처리 이유
0
28
2
데이터제공
0
23
2
예시문제 작업형3 꼬리질문2번
0
15
1
데이터 개수를 구할 때, len과 value_counts 차이
0
19
2
작업형 2 제출방
0
19
2
인코딩 스케일링 순서
0
20
2
실제 시험에서도 공식을 문제에서 주는지
0
20
2
수강 연장 문의
0
17
2
작업형2 정리한 내용 확인 부탁드립니다 ㅜㅜ
0
21
1
14강 "" 사용 관련 질문
0
22
2
캐글 제출 점수
0
26
2
기출 마무리 방법
0
50
2
빅이시 작업형2 기초 - 케이스 1~3 관련 문의
0
33
6
데이터프레임 슬라이싱 인덱싱 질문2
0
29
2
단일표본검정, 샤피로검정, 윌콕슨검정
0
38
2
강의자료 다운로드 여부
0
39
2





