해결된 질문
작성
·
431
0
안녕하세요 선생님 평가지표 강의 다중 분류 확률값에 대해 질문 있습니다.
'ovo' 방식
roc_score_ovo = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovo')
print("ROC AUC (OvO):", roc_score_ovo)
# 'ovr' 방식
roc_score_ovr = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovr')
print("ROC AUC (OvR):", roc_score_ovr)
확률값을 구할때는 pred_proba에서 어떤 확률값을 구하는지 pred.proba[:,1] 이렇게 지정해줬던거 같은데 다중확률에서는 이렇게 안하는건가요??
# 다중분류 데이터(확률값)
y_true_str = pd.DataFrame(['A', 'B', 'C', 'A', 'B']) # 실제값
y_pred_proba = pd.DataFrame([[0.2, 0.5, 0.3], [0.7, 0.2, 0.1], [0.4, 0.3, 0.3], [0.4, 0.1, 0.5], [0.1, 0.8, 0.1]], columns=['A', 'B', 'C'])
# 예측값(각 클래스 확률)
# 인코딩된 순서와 확률 컬럼 순서가 같인지 확인
print("y_true의 원-핫 인코딩된 컬럼 순서:", y_true_onehot.columns)
print("y_pred_proba의 컬럼 순서:", y_pred_proba.columns)
2 . 실제 문제를 풀 때는 pred_proba값이 배열 형태로 되어 있어 컬럼값이 지정이 안되어 있을텐데 이 때는 컬럼 순서가 같은지 어떻게 확인을 해야 하는 건가요??
답변 1
0
네 맞습니다. 이진분류에서는 양성인 1인 확률값을 찾아서 계산합니다. 다중 분류는 양성의 개념이 없어 모든 확률값을 계산합니다.
2. 좋은 지적 너무 감사합니다. 코드에 참조로 반영하겠습니다. model.classes_로 확인 가능해요
전체 예시코드입니다.
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
# 예제 데이터 생성
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, n_classes=3, random_state=0)
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
# RandomForestClassifier 모델 생성 및 훈련
rf = RandomForestClassifier(random_state=0)
rf.fit(X_train, y_train)
# 검증 데이터에 대한 클래스 확률 예측
pred_proba = rf.predict_proba(X_val)
pred_proba
# 클래스 확률 출력
print(pred_proba[:3])
# 훈련 데이터에 있는 클래스 레이블의 순서 출력
print("클래스 레이블의 순서:", rf.classes_)
감사합니다!!