강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

신태무님의 프로필 이미지
신태무

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

오차행렬(Confusion Matrix), 정밀도(Precision), 재현율(Recall) 소개

정밀도 부분에서 값이 재현율과 정확도 부분에 비해 현저히 낮게나옵니다.

작성

·

220

0

문제는 없는걸로 알고있지만 왜 그런지에대하여 궁금하여 질문드립니다.

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 원본 데이터를 재로딩, 데이터가공, 학습 데이터/ 테스트 데이터 분할
titanic_df = pd.read_csv('titanic_train.csv')
y_titanic_df = titanic_df['Survived']
X_titanic_df = titanic_df.drop('Survived',axis=1)
X_titanic_df = transform_features(X_titanic_df)

X_train, X_test, y_train, y_test = train_test_split(X_titanic_df, y_titanic_df,
                                                   test_size = 0.20 , random_state=11)

lr_clf = LogisticRegression(max_iter = 500)

lr_clf.fit(X_train, y_train)
pred = lr_clf.predict(X_test)
get_clf_eval(y_test, pred)

오차행렬 : [[104 14] [ 13 48]] 정확도 : 0.8492, 정밀도 : 0.7742, 재현율 : 0.7869
라는 값이 나옵니다.

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

음, 수치 그대로, 양성 1인 데이터 즉 (생존자)를 생존했다고 잘 예측한 것 보다(재현율),

생존자/사망자 를 정확하게 예측한 성능이 더 높다(정확도)라는 의미 입니다. 요약 드리면 음성 0인 데이터 즉 사망자가 사망한 것은 잘 예측하지만 상대적으로 생존자가 생존했다고는 잘 예측 하지 못한 모델이라는 의미 입니다.

감사합니다.

신태무님의 프로필 이미지
신태무

작성한 질문수

질문하기