인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

인프런 커뮤니티 질문&답변

김석종님의 프로필 이미지
김석종

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

평가지표 (이진/다중 분류, 회귀)

다중분류 데이터 확률값 질문있습니다!!

해결된 질문

작성

·

431

0

안녕하세요 선생님 평가지표 강의 다중 분류 확률값에 대해 질문 있습니다.

'ovo' 방식
roc_score_ovo = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovo')
print("ROC AUC (OvO):", roc_score_ovo)

# 'ovr' 방식
roc_score_ovr = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovr')
print("ROC AUC (OvR):", roc_score_ovr)
  1. 확률값을 구할때는 pred_proba에서 어떤 확률값을 구하는지 pred.proba[:,1] 이렇게 지정해줬던거 같은데 다중확률에서는 이렇게 안하는건가요??

# 다중분류 데이터(확률값)
y_true_str = pd.DataFrame(['A', 'B', 'C', 'A', 'B']) # 실제값
y_pred_proba = pd.DataFrame([[0.2, 0.5, 0.3], [0.7, 0.2, 0.1], [0.4, 0.3, 0.3], [0.4, 0.1, 0.5], [0.1, 0.8, 0.1]], columns=['A', 'B', 'C']) 
# 예측값(각 클래스 확률)
# 인코딩된 순서와 확률 컬럼 순서가 같인지 확인
print("y_true의 원-핫 인코딩된 컬럼 순서:", y_true_onehot.columns)
print("y_pred_proba의 컬럼 순서:", y_pred_proba.columns)

2 . 실제 문제를 풀 때는 pred_proba값이 배열 형태로 되어 있어 컬럼값이 지정이 안되어 있을텐데 이 때는 컬럼 순서가 같은지 어떻게 확인을 해야 하는 건가요??

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  1. 네 맞습니다. 이진분류에서는 양성인 1인 확률값을 찾아서 계산합니다. 다중 분류는 양성의 개념이 없어 모든 확률값을 계산합니다.
    2. 좋은 지적 너무 감사합니다. 코드에 참조로 반영하겠습니다. model.classes_로 확인 가능해요
    전체 예시코드입니다.

    from sklearn.ensemble import RandomForestClassifier
    from sklearn.datasets import make_classification
    from sklearn.model_selection import train_test_split
    
    # 예제 데이터 생성
    X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, n_classes=3, random_state=0)
    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # RandomForestClassifier 모델 생성 및 훈련
    rf = RandomForestClassifier(random_state=0)
    rf.fit(X_train, y_train)
    
    # 검증 데이터에 대한 클래스 확률 예측
    pred_proba = rf.predict_proba(X_val)
    pred_proba
    
    # 클래스 확률 출력
    print(pred_proba[:3])
    
    # 훈련 데이터에 있는 클래스 레이블의 순서 출력
    print("클래스 레이블의 순서:", rf.classes_)
    
김석종님의 프로필 이미지
김석종
질문자

감사합니다!!

김석종님의 프로필 이미지
김석종
질문자

선생님 그러면 원핫인코딩을 한 값의 컬럼이랑 rf.classes_의 컬럼값의 순서가 다르면 어떻게 해줘야 하나요?

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

오름차순이라 순서는 동일할 것으로 예상됩니다만 만약 다르다면

import pandas as pd

# 데이터 프레임 생성
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data)

# 변경 전
print(df)

# 컬럼 순서 변경
df = df[['C', 'A', 'B']]

# 변경 후
print(df)
김석종님의 프로필 이미지
김석종

작성한 질문수

질문하기