inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

RMSE와 MAE 간의 괴리에 대해서 질문이 있습니다

702

뭐임뭐임

작성한 질문수 9

0

안녕하세요.

잦은 질문 작성으로 강사님을 번거롭게 하는 게 아닌가 싶습니다만 (ㅜㅜ)

강좌 수강 후 rmse 와 mae 와 같은 회귀 평가 지표들을 실습하면서 의문점이 생겨서 질문드립니다.

회귀예측의 데이터가 누군가의 급여, 집값 예측 등과 같은 경우를 예시로 들겠습니다.

이때 타겟값이 우리가 실생활에서 사용하는 값이기 때문에 (가격) 

잔차값 또한 1000$나 1300$와 같이 우리가 직관적으로 이해하게 되지 않습니까? ("모델이 1300$나 틀렸군...")

이때 rmse를 평가지표로 활용하게 되면 rmse의 공식상 루트 안에 1/n이 들어가서 단순히 평균을 내는 값과는 조금 차이가 생긴다고 이해하고 있습니다 (반면 mae는 잔차가 1000$면 mae도 1000$로 나오겠지요)

루트 n으로 나누기 때문에 rmse가 필연적으로 mae보다 값이 크고요.

이 상황에서 제가 생각했을 때는 보다 잔차의 파악이 직관적인 mae를 평가지표로 삼는 게 괜찮은 방안 같은데,

rmse가 평가지표로 인기있고 의미있는 이유가 무엇인지 궁금합니다.

늘 감사합니다.

통계 머신러닝 배워볼래요? python

답변 1

0

권 철민

안녕하십니까,

질문은 언제나 환영입니다. ^^

저도 rmse가 mae보다 더 나은 지표라고는 생각하지 않습니다.  rmse가 지표로 사용될 상황 , mae가 지표로 사용될 상황이 조금씩 다릅니다.

계산을 해보셔서 아시겠만 rmse가 mae보다 일반적으로 큽니다. rmse는 큰 오류값 차이에 대해서 크게 penalty를 주는 방식입니다. 즉 작은 오차 9개가 있고, 9개의 작은 오차보다 훨씬 큰 오차가 1개 있으면 일반적으로 mae보다 큰 값이 나옵니다.

rmse 계산식이 오차의 제곱 값에 평균을 취한 뒤에(1/n)에 루트를 씌우기 때문에 이렇게 큰 오차가 있으면 mae 보다 값이 커지게 됩니다. 따라서 큰 오차가 발생하면 여기에 penalty를 더 주어야 하는 업무에 사용되는 것이 맞습니다. 그렇지 않은 업무의 경우 mae가 더 유용할 수 있습니다.

그럼에도 머신러닝에서 rmse가 평가 지표로 인기 있는 이유는  RMSE가 머신러닝에서 오차의 최소값을 찾는 Gradient Descent 기법의 기반이기 때문 아닌가도 싶습니다.

요약하자면 MAE, RMSE를 상황에 맞는 업무의 지표로 적용하는 것이 좋으며, 일반적으로 RMSE는 큰 오차값에 Penalty를 부여하는 성격이 있으므로 RMSE보다 RMSLE와 같이 Log 변환을 적용하는 지표를 사용하는 추세입니다.

감사합니다.

안녕하세요 열심히 수강중인 학생입니다

0

63

2

정수 인덱싱

0

68

2

넘파이 오류

0

85

2

11강 numpy의 axis 축 질문 드립니다.

0

85

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

79

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

70

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

64

2

5강 강의 오류가 있어요.

0

84

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

72

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

69

3

파이썬 다운그레이 후 사이킷런 재설치

0

117

2

좋은 강의 감사합니다.

0

73

2

scoring 함수 음수값

0

67

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

100

2

분류 평가 정확도 예측

0

79

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

99

1

카카오톡 채널 있나요

0

108

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

190

2

pca 스케일링 관련하여 질문드립니다.

0

100

2

주피터 대신 구글 코랩

0

172

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

148

2

실루엣 스코어..

0

86

2

float64 null 값 처리 방법

0

103

2