해결된 질문
작성
·
53
·
수정됨
0
강사님 안녕하세요! 두가지 질문이 두 가지 있습니다.
1)
from sklearn.model_selection import cross_val_score scores = cross_val_score(train, y scoring = 'f1_macro', cv=5) 이거 대신에
train_test_split(train.drop('Segmentation',axis =1),train['Segmentation'], test_size = 0.2, random_state =0 ) 이렇게 데이터를 나눈 뒤, 평가를 해도 되는지 궁금합니다.
2)그리고 cross_val_score를 쓰지 않고, 아래처럼 기존에 쓰던 직접 f1-score를 구해 모델 평가하는 방식도 괜찮은가요?
rf_f1 = f1_score(y_val, rf_pred, average='macro')
감사합니다
cols = list(train.select_dtypes(include = 'O'))
cols #['Gender','Ever_Married','Graduated','Profession','Spending_Score','Var_1']
# train[cols].nunique() #(2,2,2,9,3,7)
# for col in cols:
# print(train[col].value_counts())
train = train.drop('ID',axis =1)
test_id = test.pop('ID')
# from sklearn.preprocessing import LabelEncoder
# for col in cols:
# le = LabelEncoder()
# train[col] = le.fit_transform(train[col])
# test[col] = le.transform(test[col])
# train.head()
train = pd.get_dummies(train).astype(int) #(6665,30)
test = pd.get_dummies(test).astype(int) #(2154,29)
# print(train.shape,test.shape)
# print(train.shape,test.shape) #(6665, 29) (2154, 28)
train.head()
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(train.drop('Segmentation',axis =1),train['Segmentation'], test_size = 0.2, random_state =0 )
print(X_train.shape,X_val.shape,y_train.shape, y_val.shape) #(5332, 28) (1333, 28) (5332,) (1333,)
from sklearn.metrics import f1_score
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state = 0, max_depth = 9, n_estimators = 700)
rf.fit(X_train,y_train)
rf_pred = rf.predict(X_val)
rf_f1 = f1_score(y_val, rf_pred, average= 'macro')
print(rf_f1) # 0.5350437339763565 /9 700 0.543685768934749
# # from lightgbm import LGBMClassifier
# # lgbm = LGBMClassifier()
# # lgbm.fit(X_train, y_train)
# # lgbm_pred = lgbm.predict(X_val)
# # lgbm_f1 = f1_score(y_val, lgbm_pred, average= 'macro')
# # print(lgbm_f1) #0.5277491575057244
pred = rf.predict(test)
sumbit = pd.DataFrame({'ID':test_id,
'Segmentation': pred})
sumbit.to_csv('submission.csv', index = False)
pd.read_csv('submission.csv') #0.31924
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다.
변재현님께서 질문해주신 내용에 대해 답변드리겠습니다.
train_test_split
:교차 검증을 통한 cross_val_score
는 데이터셋을 여러 개의 폴드로 나누어 여러 번 평가하는 방법으로, 모델의 일반화 성능을 보다 안정적으로 평가할 수 있습니다. 반면에, train_test_split
을 사용하면 데이터가 한 번만 나누어지기 때문에 평가 결과가 데이터의 분할에 민감할 수 있습니다. 지도 강사의 접근 방식을 사용하거나, train_test_split
을 사용하여 모델을 평가해도 됩니다. 하지만 더 견고하게 평가하려면 교차 검증을 사용하는 것이 좋습니다.
네, f1_score
를 사용하여 평가할 수도 있습니다. cross_val_score
없이도 f1_score(y_val, rf_pred, average='macro')
를 통해 모델의 성능을 직접 평가하는 것은 유효한 방법입니다. 이렇게 평가하면, 주어진 검증 데이터에 대해 탐색적 분석이나 모델 튜닝을 할 때 유용할 수 있습니다. 중요한 것은 평가 방식의 일관성과 문제의 요구사항에 맞춰 사용하는 것입니다.
다음과 같은 URL을 통해 유사한 질문에 대한 관련 답변을 참고해 보실 수 있습니다:
cross_val_score
사용법에 관한 설명이 포함되어 있어 도움이 되실 수 있습니다.f1_score
함수 사용 시 average
매개변수의 설정 방법에 대한 내용을 참고하실 수 있습니다.저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
네 감사합니다!