작성
·
43
0
#중급단계
#목표 : 범주형 카테고리 데이터 활용하기
import pandas as pd
train=pd.read_csv("train.csv")
test=pd.read_csv("test.csv")
#원핫?레이블인코딩?
#EDA
train.shape
#범주형데이터를 원핫인코딩해보기
train.describe(include="O")
test.describe(include="O")
train=pd.get_dummies(train)
test=pd.get_dummies(test)
target=train.pop('Segmentation')
test_ID = test.pop("ID")
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(max_depth=9, random_state=2022)
model.fit(train,target)
pred = model.predict(test)
pred
답변 1
0
아마도
원핫인코딩 이후
train=pd.get_dummies(train)
test=pd.get_dummies(test)
train과 test의 컬럼의 수가 달라졌을 것 같아요!
train에는 Gender가 ["Male", "Female"]
test에는 Gender가 ["Male", "Female", "Other"]
이러면 컬럼 수가 달라집니다.
화면보면서 똑같이 입력했는데 왜 차이가 날까요
강의하실때의 test데이터와 달라서 그런걸까여?