4회 기출 유형(작업형2) 질문

Question

안녕하세요 강사님 아래와 같이 코드를 짜보고 강의를 들었는데 저는 train_test_split을 썼으므로 강의에서와 같이 target = train.pop('Segmentation') 과정이 필요없는게 맞나요? 아래는 제가 짠 코드이고 leaderboard 점수 0.30927입니다. 이정도 점수면 충분할까요? 제가 아래 코드에 from sklearn.metrics import roc_auc_score print(roc_auc_score(y_val, pred) 를 추가할시 아래와 같은 에러코드가 납니다. 자체적으로 평가점수를 보고싶어서 추가해보았는데 왜 이런문제가 생기는걸까요? --------------------------------------------------------------------------- ValueError Traceback (most recent call last) /tmp/ipykernel_27/2182156644.py in <module> 28 29 from sklearn.metrics import roc_auc_score ---> 30 print(roc_auc_score(y_val, pred)) 31 32 /opt/conda/lib/python3.7/site-packages/sklearn/metrics/_ranking.py in roc_auc_score(y_true, y_score, average, sample_weight, max_fpr, multi_class, labels) 558 ) 559 if multi_class == "raise": --> 560 raise ValueError("multi_class must be in ('ovo', 'ovr')") 561 return _multiclass_roc_auc_score( 562 y_true, y_score, labels, multi_class, average, sample_weight ValueError: multi_class must be in ('ovo', 'ovr') import pandas as pd train = pd.read_csv("../input/big-data-analytics-certification-kr-2022/train.csv") test = pd.read_csv("../input/big-data-analytics-certification-kr-2022/test.csv") cols = ['Gender', 'Ever_Married', 'Graduated', 'Profession', 'Spending_Score', 'Var_1'] from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) train = train.drop('ID', axis =1) test_id = test.pop('ID') from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split( train.drop(['Segmentation'],axis =1), train['Segmentation'], test_size = 0.2, random_state = 2023) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier() model.fit(X_tr, y_tr) pred = model.predict(X_val) pred = model.predict(test) submit = pd.DataFrame({ 'ID': test_id, 'Segmentation' : pred }) submit.to_csv("submission.csv", index = False)

퇴근후딴짓 · Answer

train_test_split 괄호 안에 작성한 것을 말한다면 타겟값을 지정하였으므로 문제가 없어보입니다.💪 점수 가이드라인은 공개된 적이 없어 적정선을 언급하긴 어려울 것 같아요. 🙏 roc-auc를 다중 클래스에서 사용한다면 파라미터를 하나 추가해야 합니다. 문제에서 요구하는 방식으로 평가를 진행해주세요 :) roc_auc_score(y_val, pred, multi_class='ovo') #일대일 roc_auc_score(y_val, pred, multi_class='ovr') #일대다