4회 기출 유형(작업형2) 질문
안녕하세요 강사님 아래와 같이 코드를 짜보고 강의를 들었는데
저는 train_test_split을 썼으므로 강의에서와 같이
target = train.pop('Segmentation') 과정이 필요없는게 맞나요?
아래는 제가 짠 코드이고 leaderboard 점수 0.30927입니다. 이정도 점수면 충분할까요?
제가 아래 코드에
from sklearn.metrics import roc_auc_score
print(roc_auc_score(y_val, pred)
를 추가할시 아래와 같은 에러코드가 납니다. 자체적으로 평가점수를 보고싶어서 추가해보았는데 왜 이런문제가 생기는걸까요?
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
/tmp/ipykernel_27/2182156644.py in <module>
28
29 from sklearn.metrics import roc_auc_score
---> 30 print(roc_auc_score(y_val, pred))
31
32
/opt/conda/lib/python3.7/site-packages/sklearn/metrics/_ranking.py in roc_auc_score(y_true, y_score, average, sample_weight, max_fpr, multi_class, labels)
558 )
559 if multi_class == "raise":
--> 560 raise ValueError("multi_class must be in ('ovo', 'ovr')")
561 return _multiclass_roc_auc_score(
562 y_true, y_score, labels, multi_class, average, sample_weight
ValueError: multi_class must be in ('ovo', 'ovr')import pandas as pd
train = pd.read_csv("../input/big-data-analytics-certification-kr-2022/train.csv")
test = pd.read_csv("../input/big-data-analytics-certification-kr-2022/test.csv")
cols = ['Gender', 'Ever_Married', 'Graduated', 'Profession', 'Spending_Score', 'Var_1']
from sklearn.preprocessing import LabelEncoder
for col in cols:
le = LabelEncoder()
train[col] = le.fit_transform(train[col])
test[col] = le.transform(test[col])
train = train.drop('ID', axis =1)
test_id = test.pop('ID')
from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(
train.drop(['Segmentation'],axis =1),
train['Segmentation'],
test_size = 0.2,
random_state = 2023)
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_tr, y_tr)
pred = model.predict(X_val)
pred = model.predict(test)
submit = pd.DataFrame({
'ID': test_id,
'Segmentation' : pred })
submit.to_csv("submission.csv", index = False)
답변 1
1
train_test_split 괄호 안에 작성한 것을 말한다면 타겟값을 지정하였으므로 문제가 없어보입니다.💪
점수 가이드라인은 공개된 적이 없어 적정선을 언급하긴 어려울 것 같아요. 🙏
roc-auc를 다중 클래스에서 사용한다면 파라미터를 하나 추가해야 합니다. 문제에서 요구하는 방식으로 평가를 진행해주세요 :)
roc_auc_score(y_val, pred, multi_class='ovo') #일대일 roc_auc_score(y_val, pred, multi_class='ovr') #일대다
작업형 2관련 질문입니다
0
5
1
작업형2 카테고리
0
10
1
110강 회귀_8번 문의
0
9
2
XGBRegressor 학습 시 warning 출력
0
13
2
데이터 프레임을 변경해도 되나요?
0
10
2
10회 기출 작업형3 문제 2-1 질문
0
17
2
작업형 2 질문
0
17
2
작업형 2 템플릿 확인 요청
0
14
2
작업형2 인코딩 질문
0
22
2
작업형 3 벼락치기 공부방법 질문
0
31
2
기출 11회 작업형 2_전체 데이터 학습 여부
0
32
2
예측값 결과 소수점 차이
0
28
2
기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?
0
36
1
전처리 train() test([ ])
0
23
2
작업형 1 배경지식 질문
0
33
2
옳게 풀은건지 질문드립니다!
0
22
1
roc_auc_score
0
30
2
추가질문 합니다
0
22
2
시험환경 구름
0
21
2
2유형 질문드려요
0
21
2
RandomForest vs lgb
0
30
2
전처리 관련질문
0
29
3
작업형3 기출
0
22
2
유형2에서 데이터분할 생략 가능여부
0
33
2





