인프런 커뮤니티 질문&답변

Abraham님의 프로필 이미지
Abraham

작성한 질문수

캐글 Advanced 머신러닝 실전 박치기

application 데이터 세트 기반으로 첫번째 모델 학습 및 성능 평가

training과 valid 데이터의 auc 질문

작성

·

271

1

안녕하세요.

training과 valid 데이터의 auc 값에 대해 문의드립니다.

valid 데이터의 auc가 0.8 이라는 것은 target 값을 0.8 확률로 맞춘다는 뜻인지요?

답변 1

3

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

AUC 는 정확도하고는 좀 차이가 있습니다.

이진(True or False) 분류에서는 정확도는 성능 지표로 선호되지 않습니다. 이유가 이진 분류는 찍기 쉽기 때문입니다. 그냥 random 하게 찍어도 50% 정확합니다. 즉 시험 문제가 2지 선다형과 4지 선다형은 random하게 찍으면 각각 50%, 25% 정확도 입니다. 10지 선다형은 10%, 이처럼 target 값이 많으면 random 정확도가 떨어지므로 정확도가 성능 지표로 사용될 수 있습니다.

이진 분류의 성능 지표로 주로 정밀도(Precision), 재현율(Recall), F1-SCORE, ROC-AUC가 활용됩니다.

정밀도,재현율, F1-SCORE 모두 양성(Positive)/음성(Negative)를 선택하는 임계값(Threshold)에 영향을 받을 수 있습니다. 하지만 정밀도, 재현율은 , 임계값이 높냐, 낮냐에 따라 한쪽이 높아지거나, 한쪽이 낮아지게 됩니다.   AUC는 이러한 임계값 영향도까지 고려하면서 이진 분류의 성능을 나타내는 대표적인 지표입니다. Random하게 찍으면 0.5, 그리고 완벽한 이진 분류 성능일 때 1을 나타냅니다.

AUC는 일반적으로 민감도와 특이도 모두가 다 좋아야 좋은 성능으로 인정 받을 수 있습니다.

민감도는 양성(Positive)인 True(예를 들어 암 양성, 사기 거래)을 얼마나 잘 찾느냐 입니다.

특이도는 음성(Negative)인 True(예를 들어 정상 세포, 정상 거래)를 얼마나 잘 찾느냐 입니다.

그런데 AUC는 이 두가지를 만족하는 그래프를 최대 사각형 면적 1을 만족할 수 있는 곡선 그래프를 그리기 위해 Y축은 민감도, X축은 1-특이도 값의 변화를 사용합니다.

민감도는 TPR(True Positive Rate)이며 재현율(Recall)과 같습니다. 민감도는 TP/(FN+TP)입니다.

1- 특이도는 FPR(False Positive Rate) 이며 1- (TN/(TN+FP)) = FP/(TN+FP) 입니다. 

Threshold에 따른 FPR값의 변화에 따른 TPR 값의 변화를 그래프로 그리게 되면 이진 분류에서 얼마나 강건한 성능을 나타내는지 좋은 지표를 나타냅니다.

AUC 이해를 위해서는 Threshold, 재현율, Confusion matrix에 대한 이해가 선행되어야 함을 양해 부탁드립니다.

감사합니다.

Abraham님의 프로필 이미지
Abraham

작성한 질문수

질문하기