인프런 커뮤니티 질문&답변
오류가 나는데 왜그런걸까요 ? 똑같이 타이핑했거든요 ㅠ
작성
·
47
0
#중급단계
#목표 : 범주형 카테고리 데이터 활용하기
import pandas as pd
train=pd.read_csv("train.csv")
test=pd.read_csv("test.csv")
#원핫?레이블인코딩?
#EDA
train.shape
#범주형데이터를 원핫인코딩해보기
train.describe(include="O")
test.describe(include="O")
train=pd.get_dummies(train)
test=pd.get_dummies(test)
target=train.pop('Segmentation')
test_ID = test.pop("ID")
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(max_depth=9, random_state=2022)
model.fit(train,target)
pred = model.predict(test)
pred답변 1
0
퇴근후딴짓
지식공유자
아마도
원핫인코딩 이후
train=pd.get_dummies(train)
test=pd.get_dummies(test)
train과 test의 컬럼의 수가 달라졌을 것 같아요! 
train에는 Gender가 ["Male", "Female"]
test에는 Gender가 ["Male", "Female", "Other"]
이러면 컬럼 수가 달라집니다.








화면보면서 똑같이 입력했는데 왜 차이가 날까요
강의하실때의 test데이터와 달라서 그런걸까여?