Inflearn Community Q&A
안녕하세요! 회귀 평가 지표에 대해 궁금한게 있습니다.
Resolved
Written on
·
324
0
강의 재밌게 듣고있습니다. 다름이 아니라 회귀 평가 지표인 MAE, MSE, RMSE, R^2, MSLE, RMSLE를 가르쳐 주셨는데, 위에 말한 평가지표들이 상황에 따라 다르게 쓰이나요? 아니면 6개의 평가지표중 상황 상관없이 아무거나 사용해도 되는건가요?
6개의 평가 지표가 있다는건 상황에 따라 쓰임새를 다르게 같기도 한데 궁금증이 생겨 여쭤봅니다.
Answer 1
4
안녕하십니까,
일반적으로 6개의 지표중 MSE는 예측 오류에 따라 값이 너무 커져서 주로 MAE, RMSE, RMSLE, R2를 사용합니다. 이중 R2는 주로 보조 지표로 활용하며, 요약하자면 MAE 또는 RMSE계열(RMSE, RMSLE)가 사용됩니다.
제가 강의에서는 지표로 주로 RMSE 계열을 사용했지만, RMSE가 MAE보다 더 나은 지표는 아닙니다(오히려 오차 정확도 측면에서는 더 떨어지는 지표입니다. rmse가 지표로 사용될 상황 , mae가 지표로 사용될 상황이 조금씩 다릅니다.
계산을 해보면 일반적으로 rmse가 mae보다 큽니다. rmse는 큰 오류값 차이에 대해서 크게 penalty를 주는 방식입니다. 즉 작은 오차 9개가 있고, 9개의 작은 오차보다 훨씬 큰 오차가 1개 있으면 일반적으로 mae보다 큰 값이 나옵니다.
rmse 계산식이 오차의 제곱 값에 평균을 취한 뒤에(1/n)에 루트를 씌우기 때문에 이렇게 큰 오차가 있으면 mae 보다 값이 커지게 됩니다. 따라서 큰 오차가 발생하면 여기에 penalty를 더 주어야 하는 업무에 사용되는 것이 맞습니다. 그렇지 않은 업무의 경우 mae가 더 유용할 수 있습니다.
그럼에도 머신러닝에서 rmse가 평가 지표로 인기 있는 이유는 RMSE가 머신러닝에서 오차의 최소값을 찾는 Gradient Descent 기법의 기반이기 때문 아닌가도 싶습니다.
RMSE는 큰 오차값에 Penalty를 부여하고자 한다면 이를 적용하고 그렇지 않는 경우라면 MAE를 적용합니다. 또한 RMSE보다 RMSLE와 같이 Log 변환을 적용하는 지표를 사용하는 경우도 많습니다.
R2역시 모델을 평가하는 뛰어난 지표입니다. 예측값의 분산/ 실제값의 분산으로 0 ~1 까지 값이 나오며 1에 가까울 수록 좋은 모델입니다. 하지만 이는 예측값의 분산을 기반으로 하기에 1이 되더라도 예측오류가 작다고 보장할 수 없습니다. 그럼에도 예측값이 실제값과 유사한 형태로 분산을 이루고, 특이한 다른 분포를 이루지 않아야 좋은 모델을 의미하는 지표로서 역할을 충실히 할 수 있습니다.
감사합니다.





