inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

평가지표 (이진/다중 분류, 회귀)

다중분류 데이터 확률값 질문있습니다!!

해결된 질문

490

김석종

작성한 질문수 13

0

안녕하세요 선생님 평가지표 강의 다중 분류 확률값에 대해 질문 있습니다.

'ovo' 방식
roc_score_ovo = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovo')
print("ROC AUC (OvO):", roc_score_ovo)

# 'ovr' 방식
roc_score_ovr = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovr')
print("ROC AUC (OvR):", roc_score_ovr)
  1. 확률값을 구할때는 pred_proba에서 어떤 확률값을 구하는지 pred.proba[:,1] 이렇게 지정해줬던거 같은데 다중확률에서는 이렇게 안하는건가요??

# 다중분류 데이터(확률값)
y_true_str = pd.DataFrame(['A', 'B', 'C', 'A', 'B']) # 실제값
y_pred_proba = pd.DataFrame([[0.2, 0.5, 0.3], [0.7, 0.2, 0.1], [0.4, 0.3, 0.3], [0.4, 0.1, 0.5], [0.1, 0.8, 0.1]], columns=['A', 'B', 'C']) 
# 예측값(각 클래스 확률)
# 인코딩된 순서와 확률 컬럼 순서가 같인지 확인
print("y_true의 원-핫 인코딩된 컬럼 순서:", y_true_onehot.columns)
print("y_pred_proba의 컬럼 순서:", y_pred_proba.columns)

2 . 실제 문제를 풀 때는 pred_proba값이 배열 형태로 되어 있어 컬럼값이 지정이 안되어 있을텐데 이 때는 컬럼 순서가 같은지 어떻게 확인을 해야 하는 건가요??

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

0

퇴근후딴짓

  1. 네 맞습니다. 이진분류에서는 양성인 1인 확률값을 찾아서 계산합니다. 다중 분류는 양성의 개념이 없어 모든 확률값을 계산합니다.
    2. 좋은 지적 너무 감사합니다. 코드에 참조로 반영하겠습니다. model.classes_로 확인 가능해요
    전체 예시코드입니다.

    from sklearn.ensemble import RandomForestClassifier
    from sklearn.datasets import make_classification
    from sklearn.model_selection import train_test_split
    
    # 예제 데이터 생성
    X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, n_classes=3, random_state=0)
    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # RandomForestClassifier 모델 생성 및 훈련
    rf = RandomForestClassifier(random_state=0)
    rf.fit(X_train, y_train)
    
    # 검증 데이터에 대한 클래스 확률 예측
    pred_proba = rf.predict_proba(X_val)
    pred_proba
    
    # 클래스 확률 출력
    print(pred_proba[:3])
    
    # 훈련 데이터에 있는 클래스 레이블의 순서 출력
    print("클래스 레이블의 순서:", rf.classes_)
    

0

김석종

감사합니다!!

0

김석종

선생님 그러면 원핫인코딩을 한 값의 컬럼이랑 rf.classes_의 컬럼값의 순서가 다르면 어떻게 해줘야 하나요?

0

퇴근후딴짓

오름차순이라 순서는 동일할 것으로 예상됩니다만 만약 다르다면

import pandas as pd

# 데이터 프레임 생성
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data)

# 변경 전
print(df)

# 컬럼 순서 변경
df = df[['C', 'A', 'B']]

# 변경 후
print(df)

작업형2 모의문제1 (30강)

0

20

2

수강 기간 연장 문의 드립니다.

0

24

2

수강 계획과 관련해 문의 드립니다.

0

22

2

작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?

0

47

2

작업형 1 -연습문제 4-6

0

34

2

작업형 1 유형 부분

0

40

2

작업형 1 (삭제예정, 구 버전)

0

50

2

수강기간 연장 문의드립니다.

0

36

2

2유형 레이블 인코딩 VS 원핫 인코딩

0

36

3

수강기간 연장 문의드립니다.

0

42

2

인덱스 슬라이싱

0

36

2

질문 드립니다.

0

50

2

강의 내용 관련 질문드립니다~

0

46

2

수강 연장 문의

0

63

2

강의자료 일괄 다운로드

0

58

2

수강기간 연장 문의드립니다

0

48

2

list 문제 질문드립니다~

0

38

2

빅분기 실기 12회 재도전

0

63

2

강의 기간 연장 가능여부 검토 요청건

0

50

2

수강기간 연장 문의 드립니다

0

46

2

수강기간 연장 문의드립니다

0

52

2

질문이요

0

57

2

수강기간 연장 문의드립니다.

0

60

2

문제 3-2 질문드립니다

0

47

2