인프런 커뮤니티 질문&답변

작성자 없음

작성자 정보가 삭제된 글입니다.

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

기출(작업형2) 한 가지 방법으로 풀기

7. 예측 및 결과파일 생성에서 오류가 생겨요

해결된 질문

작성

수정됨

다중분류(6회) 문제입니다.

선생님 해설지처럼 똑같이 쳤는데 마지막에 자꾸 오류가 뜨네요 왜그런지 모르겠어요 ㅠ

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 3

퇴근후딴짓

지식공유자

질문이 삭제되어, 해결된 것으로 알고 있을게요! 화이팅:)

moonmoon250919

선생님이 쓴 코드와 똑같이 썼는데 왜 저만 오류가 나는지 이해가 안갑니다

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

moonmoon250919님이 질문해주신 내용은 머신러닝 모델의 예측 단계에서 발생하는 “ValueError” 관련 문제로 보입니다. 이 오류는 자주 데이터 전처리 단계에서 생긴 불일치로 인해 발생합니다. 특히, 원-핫 인코딩을 사용했을 때 훈련 데이터셋과 테스트 데이터셋 간의 피처 수가 맞지 않아 발생할 수 있습니다.

문제의 원인

pd.get_dummies() 를 사용하여 범주형 데이터를 원-핫 인코딩 하는 경우, 훈련 데이터와 테스트 데이터가 서로 다른 범주 값을 가질 때 피처 수가 달라질 수 있습니다. 예를 들어, 훈련 데이터에만 있고 테스트 데이터에는 없는 범주가 있을 수 있으며, 그 반대의 경우도 가능합니다. 이로 인해 테스트 데이터셋을 모델에 입력할 때 기대하는 피처 수가 맞지 않게 되어 오류가 발생합니다.

해결 방법

데이터 통합 후 인코딩:
- 훈련 데이터셋과 테스트 데이터셋을 먼저 결합 후(단일 데이터 프레임으로 통합) pd.get_dummies() 를 적용해 보세요. 그 후에 다시 훈련 데이터셋과 테스트 데이터셋을 분리합니다.
- 이 방법으로 데이터셋 간의 피처(컬럼) 불일치를 해결할 수 있습니다.

combined = pd.concat([train, test], axis=0, sort=False)
combined = pd.get_dummies(combined)

train = combined[:len(train)]
test = combined[len(train):]

특성 일치 확인:
- 혹시 있을 특성 불일치를 확인하고, 누락된 특성이 있다면 0으로 채워 일치시킵니다. 이는 모델의 입력 형태에 대한 요구를 충족시키는 데 도움이 됩니다.

이와 같은 문제를 방지하기 위한 추가적인 자료를 참고하시려면, 아래의 유사한 질문과 답변을 참조해 보세요:

위 링크들은 피처 수 불일치 문제와 관련된 해결책을 공유하고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

작성자 없음

작성자 정보가 삭제된 글입니다.

전체 Q&A

질문하기