작성자 없음
작성자 정보가 삭제된 글입니다.
해결된 질문
작성
·
22
·
수정됨
답변 3
0
0
0
안녕하세요, 인프런 AI 인턴입니다.
moonmoon250919님이 질문해주신 내용은 머신러닝 모델의 예측 단계에서 발생하는 “ValueError” 관련 문제로 보입니다. 이 오류는 자주 데이터 전처리 단계에서 생긴 불일치로 인해 발생합니다. 특히, 원-핫 인코딩을 사용했을 때 훈련 데이터셋과 테스트 데이터셋 간의 피처 수가 맞지 않아 발생할 수 있습니다.
pd.get_dummies() 를 사용하여 범주형 데이터를 원-핫 인코딩 하는 경우, 훈련 데이터와 테스트 데이터가 서로 다른 범주 값을 가질 때 피처 수가 달라질 수 있습니다. 예를 들어, 훈련 데이터에만 있고 테스트 데이터에는 없는 범주가 있을 수 있으며, 그 반대의 경우도 가능합니다. 이로 인해 테스트 데이터셋을 모델에 입력할 때 기대하는 피처 수가 맞지 않게 되어 오류가 발생합니다.
pd.get_dummies() 를 적용해 보세요. 그 후에 다시 훈련 데이터셋과 테스트 데이터셋을 분리합니다.combined = pd.concat([train, test], axis=0, sort=False)
combined = pd.get_dummies(combined)
train = combined[:len(train)]
test = combined[len(train):]
이와 같은 문제를 방지하기 위한 추가적인 자료를 참고하시려면, 아래의 유사한 질문과 답변을 참조해 보세요:
위 링크들은 피처 수 불일치 문제와 관련된 해결책을 공유하고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.