다중분류 데이터 확률값 질문있습니다!!
안녕하세요 선생님 평가지표 강의 다중 분류 확률값에 대해 질문 있습니다.
'ovo' 방식
roc_score_ovo = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovo')
print("ROC AUC (OvO):", roc_score_ovo)
# 'ovr' 방식
roc_score_ovr = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovr')
print("ROC AUC (OvR):", roc_score_ovr)확률값을 구할때는 pred_proba에서 어떤 확률값을 구하는지 pred.proba[:,1] 이렇게 지정해줬던거 같은데 다중확률에서는 이렇게 안하는건가요??
# 다중분류 데이터(확률값)
y_true_str = pd.DataFrame(['A', 'B', 'C', 'A', 'B']) # 실제값
y_pred_proba = pd.DataFrame([[0.2, 0.5, 0.3], [0.7, 0.2, 0.1], [0.4, 0.3, 0.3], [0.4, 0.1, 0.5], [0.1, 0.8, 0.1]], columns=['A', 'B', 'C'])
# 예측값(각 클래스 확률)
# 인코딩된 순서와 확률 컬럼 순서가 같인지 확인
print("y_true의 원-핫 인코딩된 컬럼 순서:", y_true_onehot.columns)
print("y_pred_proba의 컬럼 순서:", y_pred_proba.columns)2 . 실제 문제를 풀 때는 pred_proba값이 배열 형태로 되어 있어 컬럼값이 지정이 안되어 있을텐데 이 때는 컬럼 순서가 같은지 어떻게 확인을 해야 하는 건가요??
답변 1
0
네 맞습니다. 이진분류에서는 양성인 1인 확률값을 찾아서 계산합니다. 다중 분류는 양성의 개념이 없어 모든 확률값을 계산합니다.
2. 좋은 지적 너무 감사합니다. 코드에 참조로 반영하겠습니다. model.classes_로 확인 가능해요
전체 예시코드입니다.from sklearn.ensemble import RandomForestClassifier from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split # 예제 데이터 생성 X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, n_classes=3, random_state=0) X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42) # RandomForestClassifier 모델 생성 및 훈련 rf = RandomForestClassifier(random_state=0) rf.fit(X_train, y_train) # 검증 데이터에 대한 클래스 확률 예측 pred_proba = rf.predict_proba(X_val) pred_proba # 클래스 확률 출력 print(pred_proba[:3]) # 훈련 데이터에 있는 클래스 레이블의 순서 출력 print("클래스 레이블의 순서:", rf.classes_)
0
오름차순이라 순서는 동일할 것으로 예상됩니다만 만약 다르다면
import pandas as pd
# 데이터 프레임 생성
data = {
'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]
}
df = pd.DataFrame(data)
# 변경 전
print(df)
# 컬럼 순서 변경
df = df[['C', 'A', 'B']]
# 변경 후
print(df)
작업형2 모의문제1 (30강)
0
20
2
수강 기간 연장 문의 드립니다.
0
24
2
수강 계획과 관련해 문의 드립니다.
0
22
2
작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?
0
47
2
작업형 1 -연습문제 4-6
0
34
2
작업형 1 유형 부분
0
40
2
작업형 1 (삭제예정, 구 버전)
0
50
2
수강기간 연장 문의드립니다.
0
36
2
2유형 레이블 인코딩 VS 원핫 인코딩
0
36
3
수강기간 연장 문의드립니다.
0
42
2
인덱스 슬라이싱
0
36
2
질문 드립니다.
0
50
2
강의 내용 관련 질문드립니다~
0
46
2
수강 연장 문의
0
63
2
강의자료 일괄 다운로드
0
58
2
수강기간 연장 문의드립니다
0
48
2
list 문제 질문드립니다~
0
38
2
빅분기 실기 12회 재도전
0
63
2
강의 기간 연장 가능여부 검토 요청건
0
50
2
수강기간 연장 문의 드립니다
0
46
2
수강기간 연장 문의드립니다
0
52
2
질문이요
0
57
2
수강기간 연장 문의드립니다.
0
60
2
문제 3-2 질문드립니다
0
47
2





