해결된 질문
작성
·
43
0
#고급모델링
import pandas as pd
train=pd.read_csv("train.csv")
test=pd.read_csv("test.csv")
#범주형데이터의 컬럼들만 가져오기
cols=train.select_dtypes(include="O").columns
#이번에는 레이블인코딩해보기
from sklearn.preprocessing import LabelEncoder
le =LabelEncoder()
for col in cols:
train[col] = le.fit_transform(train[col])
test[col] = le.transform(test[col])
target=train.pop('Segmentation')
train= train.drop("ID",axis=1)
test_ID = test.pop("ID")
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(max_depth=9, random_state=2022)
#교차검증
from sklearn.model_selection import cross_val_score
score=cross_val_score(model, train, target, scoring='f1_macro',cv=5)
print(score)
[0.52381264 0.51261137 0.52051415 0.53607741 0.51389807]
답변 1
0
target=train.pop('Segmentation')
train= train.drop("ID",axis=1)
이 코드는 전처리를 시작할 때 가장 먼저 작업해 주세요:)
코드는 큰 문제 없어 보여요
#교차검증 은 말그대로 검증입니다.
이어서 전체 데이터로 학습 및 예측을 진행해 주세요