정밀도 부분에서 값이 재현율과 정확도 부분에 비해 현저히 낮게나옵니다.

Question

문제는 없는걸로 알고있지만 왜 그런지에대하여 궁금하여 질문드립니다. import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression # 원본 데이터를 재로딩, 데이터가공, 학습 데이터/ 테스트 데이터 분할 titanic_df = pd.read_csv('titanic_train.csv') y_titanic_df = titanic_df['Survived'] X_titanic_df = titanic_df.drop('Survived',axis=1) X_titanic_df = transform_features(X_titanic_df) X_train, X_test, y_train, y_test = train_test_split(X_titanic_df, y_titanic_df, test_size = 0.20 , random_state=11) lr_clf = LogisticRegression(max_iter = 500) lr_clf.fit(X_train, y_train) pred = lr_clf.predict(X_test) get_clf_eval(y_test, pred) 오차행렬 : [[104 14] [ 13 48]] 정확도 : 0.8492, 정밀도 : 0.7742, 재현율 : 0.7869 라는 값이 나옵니다.

권 철민 · Answer

안녕하십니까, 음, 수치 그대로, 양성 1인 데이터 즉 (생존자)를 생존했다고 잘 예측한 것 보다(재현율), 생존자/사망자 를 정확하게 예측한 성능이 더 높다(정확도)라는 의미 입니다. 요약 드리면 음성 0인 데이터 즉 사망자가 사망한 것은 잘 예측하지만 상대적으로 생존자가 생존했다고는 잘 예측 하지 못한 모델이라는 의미 입니다. 감사합니다.