규제 선형 모델에 관련해서 질문드립니다.

Question

안녕하세요. 규제 선형 모델에 관련해서 궁금한 점이 있어 질문드립니다. 1. degree=15의 다항 회귀를 하면 feature 수가 기하급수적으로 늘어나 Over-fitting 되는 점은 이해가 됩니다. 그러나 5장의 '규제 선형 회귀 개요' 파트에 하신 설명을 보면 "앞의 예제에서 Degree=15의 다항 회귀는 지나치게 모든 데이터에 적합한 회귀식을 만들기 위해서 다항식이 복잡해지고 회귀 계수가 매우 크게 설정 이 되면서 과대 적합이 되고 평가 데이터 세트에 대해서 형펀 없는 예측 성능을 보였습니다." -> 여기서 다항식이 복잡해지고 '회귀 계수가 매우 크게 설정'이 되면서 과대 적합이 됐다고 하셨는데 과대 적합과 회귀 계수가 큰 것과의 연관성에 대해서 잘 이해가 되지 않아 질문드립니다. 2. 바로 다음 장인 '규제 선형 모델에서 alpha의 역할' 에서 비용 함수 (RSS(W) + alpha*W^2)을 최소화하는 것이 목표라고 나옵니다. 여기서 alpha 값이 증가한다면 회귀 계수 w를 감소시켜 비용 함수 값을 낮추고 alpha 값이 감소하면 RSS(W) 값이 최소화 된다고 하셨는데 비용 함수를 최소화 하기 위해 만약, alpha 값이 크다면 회귀 계수 w 값을 감소시켜야 한다는 것 까지는 알겠습니다. 그러나 alpha 값이 감소하면 RSS(W) 값이 최소화 된다는게 어떻게 이루어지는지 잘 모르겠습니다. 단순히 alpha 값이 작으면 alpha*W^2 값도 덩달아 작아질 것이고 그 값이 무시해도될 작은 값이라 RSS(W) 값 변동도 소량이어서 최소화라고 표현하신건지 잘 모르겠습니다.

권 철민 · Answer

안녕하십니까, 1. 회귀 계수가 커지는 것은 과대 적합의 한 예를 보여 드린 것입니다. 머신러닝 모델은 어떻게든 학습 데이터의 모델 성능을 높이기 위해서 노력을 하기 때문에 이 과정에서 회귀 계수가 특정 범위를 상회하더라도 최소 loss만 추출된다면 이를 허용합니다. 회귀 계수가 크다고 과대 적합이 되는건 아니지만, 적절한 회귀 계수 값이 있더라도, 학습 loss를 줄일 수만 있다면 더 적절한 회귀 계수 값을 찾으려 노력하고, 그 과정에서 일반적이지 않은 회귀 계수, 회귀 계수값이 +/- 방향성으로 커지는 회귀계수가 결정되기 쉽습니다. 이렇게 회귀 계수가 커지면 학습 데이터가 아닌 다른 데이터가 들어와서 예측 시 오류가 발생하면 상대적으로 높은 예측 차이가 발생하게 됩니다. 즉 예측 값의 편차가 훨씬 커지게 됩니다. (회귀 계수가 0.1 * feature1 대비 100 * feature1 시 예측값이 틀리게 되면 편차는 후자가 훨씬 큽니다) 맞을 땐 잘 맞을지 몰라도 틀릴땐 왕창 틀려서 RSS값이 상당히 커지게 되어 과대적합 현상이 발생하게 됩니다. 2. 그러나 alpha 값이 감소하면 RSS(W) 값이 최소화 된다는게 어떻게 이루어지는지 잘 모르겠습니다. 단순히 alpha 값이 작으면 alpha*W^2 값도 덩달아 작아질 것이고 그 값이 무시해도될 작은 값이라 RSS(W) 값 변동도 소량이어서 최소화라고 표현하신건지 잘 모르겠습니다. => 말씀하신 측면도 있습니다. 일단 alpha값은 회귀 계수가 커지는 영향도를 제어한다고 보시면 됩니다. alpha값이 크게 해서 회귀 계수가 커지는 영향도를 상대적으로 크게 제어하고, alpha값을 줄이면 회귀 계수가 커지는 영향도를 상대적으로 작게 제어 한다는 의미 입니다. alpha 값이 작아지면 RSS+alpha*W제곱 식에서 alpha*W제곱 부분이 RSS에 비해서 상대적으로 작아지기 때문에 전체 Loss는 회귀 계수가 커지는 영향도를 크게 감안하지 않고, RSS를 최소화 하는데 집중한다라는 의미 입니다. 감사합니다.