해결된 질문
작성
·
60
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다. hyorim0424님.
train과 test 데이터셋의 object 유형이나 카테고리 수가 다르면, 머신러닝 모델 적용 시 문제를 일으킬 수 있습니다. 특히 원-핫 인코딩을 사용하면 카테고리 값마다 새로운 열이 생성되기 때문에, train과 test의 열 수가 달라질 수 있습니다. 이를 해결하기 위해서는 몇 가지 방법이 있습니다.
combined = pd.concat([train, test], axis=0)
combined_encoded = pd.get_dummies(combined)
train_encoded = combined_encoded.iloc[:len(train)]
test_encoded = combined_encoded.iloc[len(train):]
Dummy Features 조정:
pd.get_dummies
함수의 drop_first=True
옵션을 통해 첫 번째 카테고리를 삭제하여 모델의 차원을 줄일 수 있습니다.범주가 달라도 무방한 경우:
라벨 인코딩:
위의 방법을 통해 데이터셋의 차원을 일치시켜야 안정적인 모델 학습과 예측이 가능합니다.
관련 질문 및 답변 링크:
- 예시문제 작업형 2
- EDA 카테고리 비교 질문
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.