inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

캐글 Advanced 머신러닝 실전 박치기

application 데이터 세트 기반으로 첫번째 모델 학습 및 성능 평가

training과 valid 데이터의 auc 질문

331

Abraham

작성한 질문수 20

1

안녕하세요.

training과 valid 데이터의 auc 값에 대해 문의드립니다.

valid 데이터의 auc가 0.8 이라는 것은 target 값을 0.8 확률로 맞춘다는 뜻인지요?

머신러닝 배워볼래요? kaggle

답변 1

3

권 철민

안녕하십니까,

AUC 는 정확도하고는 좀 차이가 있습니다.

이진(True or False) 분류에서는 정확도는 성능 지표로 선호되지 않습니다. 이유가 이진 분류는 찍기 쉽기 때문입니다. 그냥 random 하게 찍어도 50% 정확합니다. 즉 시험 문제가 2지 선다형과 4지 선다형은 random하게 찍으면 각각 50%, 25% 정확도 입니다. 10지 선다형은 10%, 이처럼 target 값이 많으면 random 정확도가 떨어지므로 정확도가 성능 지표로 사용될 수 있습니다.

이진 분류의 성능 지표로 주로 정밀도(Precision), 재현율(Recall), F1-SCORE, ROC-AUC가 활용됩니다.

정밀도,재현율, F1-SCORE 모두 양성(Positive)/음성(Negative)를 선택하는 임계값(Threshold)에 영향을 받을 수 있습니다. 하지만 정밀도, 재현율은 , 임계값이 높냐, 낮냐에 따라 한쪽이 높아지거나, 한쪽이 낮아지게 됩니다.   AUC는 이러한 임계값 영향도까지 고려하면서 이진 분류의 성능을 나타내는 대표적인 지표입니다. Random하게 찍으면 0.5, 그리고 완벽한 이진 분류 성능일 때 1을 나타냅니다.

AUC는 일반적으로 민감도와 특이도 모두가 다 좋아야 좋은 성능으로 인정 받을 수 있습니다.

민감도는 양성(Positive)인 True(예를 들어 암 양성, 사기 거래)을 얼마나 잘 찾느냐 입니다.

특이도는 음성(Negative)인 True(예를 들어 정상 세포, 정상 거래)를 얼마나 잘 찾느냐 입니다.

그런데 AUC는 이 두가지를 만족하는 그래프를 최대 사각형 면적 1을 만족할 수 있는 곡선 그래프를 그리기 위해 Y축은 민감도, X축은 1-특이도 값의 변화를 사용합니다.

민감도는 TPR(True Positive Rate)이며 재현율(Recall)과 같습니다. 민감도는 TP/(FN+TP)입니다.

1- 특이도는 FPR(False Positive Rate) 이며 1- (TN/(TN+FP)) = FP/(TN+FP) 입니다. 

Threshold에 따른 FPR값의 변화에 따른 TPR 값의 변화를 그래프로 그리게 되면 이진 분류에서 얼마나 강건한 성능을 나타내는지 좋은 지표를 나타냅니다.

AUC 이해를 위해서는 Threshold, 재현율, Confusion matrix에 대한 이해가 선행되어야 함을 양해 부탁드립니다.

감사합니다.

sql사용

0

44

2

좋은 강의 감사드립니다.

0

73

2

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

0

246

2

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

0

599

1

안녕하세요 선생님

0

228

1

권철민교수님 진심으로 감사드립니다.

0

319

1

안녕하세요 선생님

0

351

1

# credit_card_balance 데이터셋 피쳐엔지니어링

0

267

1

초거대 데이터셋을 Submission하려면?

0

190

1

Library 관련 질문

0

350

3

최적화 함수 에러

0

587

4

LightGBM Iteration관련

0

422

2

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

0

203

1

코드를 실행했는데 오류가 발생합니다

0

1981

2

bayes_opt 회귀 모델에 적용하려면..

0

267

1

타겟값의 로그변환에 대해서

0

779

1

아나콘다 환경설정

0

459

1

깃허브 주소 문의드립니다.

0

359

1

손실함수에 대한 질문

0

342

1

card_bal 데이터셋 시각화 관련 질문입니다

0

230

1

LGBM null값 처리에 관해 질문있습니다

0

538

1

컬럼 관련 질문

0

280

1

히스토그램 x 값

0

364

1

n_iter 횟수 넘음 질문

0

487

2