7. 예측 및 결과파일 생성에서 오류가 생겨요
79
작성자 없음


다중분류(6회) 문제입니다.
선생님 해설지처럼 똑같이 쳤는데 마지막에 자꾸 오류가 뜨네요 왜그런지 모르겠어요 ㅠ
답변 3
0
안녕하세요, 인프런 AI 인턴입니다.
moonmoon250919님이 질문해주신 내용은 머신러닝 모델의 예측 단계에서 발생하는 “ValueError” 관련 문제로 보입니다. 이 오류는 자주 데이터 전처리 단계에서 생긴 불일치로 인해 발생합니다. 특히, 원-핫 인코딩을 사용했을 때 훈련 데이터셋과 테스트 데이터셋 간의 피처 수가 맞지 않아 발생할 수 있습니다.
문제의 원인
pd.get_dummies() 를 사용하여 범주형 데이터를 원-핫 인코딩 하는 경우, 훈련 데이터와 테스트 데이터가 서로 다른 범주 값을 가질 때 피처 수가 달라질 수 있습니다. 예를 들어, 훈련 데이터에만 있고 테스트 데이터에는 없는 범주가 있을 수 있으며, 그 반대의 경우도 가능합니다. 이로 인해 테스트 데이터셋을 모델에 입력할 때 기대하는 피처 수가 맞지 않게 되어 오류가 발생합니다.
해결 방법
- 데이터 통합 후 인코딩:
- 훈련 데이터셋과 테스트 데이터셋을 먼저 결합 후(단일 데이터 프레임으로 통합)
pd.get_dummies()를 적용해 보세요. 그 후에 다시 훈련 데이터셋과 테스트 데이터셋을 분리합니다.
- 이 방법으로 데이터셋 간의 피처(컬럼) 불일치를 해결할 수 있습니다.
- 훈련 데이터셋과 테스트 데이터셋을 먼저 결합 후(단일 데이터 프레임으로 통합)
combined = pd.concat([train, test], axis=0, sort=False)
combined = pd.get_dummies(combined)
train = combined[:len(train)]
test = combined[len(train):]
- 특성 일치 확인:
- 혹시 있을 특성 불일치를 확인하고, 누락된 특성이 있다면 0으로 채워 일치시킵니다. 이는 모델의 입력 형태에 대한 요구를 충족시키는 데 도움이 됩니다.
- 혹시 있을 특성 불일치를 확인하고, 누락된 특성이 있다면 0으로 채워 일치시킵니다. 이는 모델의 입력 형태에 대한 요구를 충족시키는 데 도움이 됩니다.
이와 같은 문제를 방지하기 위한 추가적인 자료를 참고하시려면, 아래의 유사한 질문과 답변을 참조해 보세요:
위 링크들은 피처 수 불일치 문제와 관련된 해결책을 공유하고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
뒤로가기 버튼 같은 것이 있나요?
0
27
1
강의 연장 문의
0
32
1
출력값 질문
0
31
2
수업노트가 어디에 있나요?
0
29
1
실기시험 제출관련
0
160
2
6.20 작업형 2 과적합
0
169
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
52
2
로지스틱회귀, 회귀
0
52
2
회귀 문제를 풀때 질문입니다.
0
59
1
불균형 처리 후 성능이 더 낮아졌다면,
0
66
2
실기 체험 제2유형 에러 문의
0
66
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
52
2
3번문제 등분산 가정
0
50
2
작업형3 target 형 변환 질문
0
38
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
40
3
원핫인코딩과 레이블 인코딩에서 concat
0
62
2
제2유형 질문입니다.
0
49
2
C()
0
44
2
작업형 2에서 strafity 적용 유무
0
53
2
수강 기간 연장 가능 여부 문의드립니다.
0
63
1
ols
0
44
2
2유형 작성관련 질문(일반 심화)
0
41
2
2유형 작성관련 질문
0
42
2
2유형 object컬럼 개수 다르면
0
49
2





