손실 함수에 대해서 질문 있습니다.

Question

alpha*||w||^2 만큼 Loss를 더해주면 Loss 값이 기존 보다 더 증가하여 과적합에 우려가 더 커지는게 아닌가 라는 의문이 생깁니다

Loss 출력 결과를 어느정도 무뎌지게 만든다는 것이 어떤 의미이고 왜 무뎌지는지 자세히 알고 싶습니다!!

Answer

안녕하십니까,

오, 조영훈님, 좋은 답변 감사드립니다.

조영훈님 답변에 첨언 드리면, 손실함수를 단순히 예측과 실제값의 차이에 기반한 w(weight)의 식으로만 만들게 되면 최적 loss 결과식이 둘쭉날쭉하면서 만들어 질 수 있습니다. 그러니까 학습데이터에 weight값이 지나치게 정교화되서 만들다 보니, 약간 논리적인(?) 범위를 벗어나면서 까지 weight값이 정해 질 수 있습니다. 어떻게든 loss값만 적게 만들다 보니 그런 weight값이 나올 수도 있습니다.

그래서 규제, 족쇄(?)를 채우는데요, alpha값이 그런 역할을 합니다. 기존 loss 식에 alpha*w 를 더해서 새로운 loss식을 만들게 되면 이 loss식을 최소화하는 w값을 찾을 때 alpha 값이 영향을 주게 됩니다. 기존 loss에 추가적인 alpha*w가 추가되어서 alpha값에 따라서 weight값의 변동률이 어느정도 상쇄하게 됩니다. alpha값을 크게 하면 weight값이 상대적으로 작아진다던가, w값이 커지더라도 alpha값이 작으면 전체 loss가 상쇄되는 식으로 규제가 적용이 되는 것입니다.

감사합니다.

Answer

같이 배우는 사람 입장으로써 지나가다 한 번 답변 남기고 갑니다!

우선 과적합이라는 개념에 대해 다시 정의하고 가자면, "학습 데이터에만 너무 집중해서 학습 데이터만 잘 맞추고 검증(또는 테스트) 데이터에는 잘 못 맞추는 현상"이 잖아요!? 이 말은 곧 "학습 데이터일 때만 Loss 값이 매우 낮고 검증(또는 테스트) 데이터일 때의 Loss 값은 상대적으로 높은 현상"을 의미하게 됩니다.

그래서 강의 속에서 설명하시는 가중치 규제라는 개념은 학습 데이터에 대한 Loss 값에 alpha*||w||^2 값을 더해준다는 것인데요! 이렇게 되면 학습 데이터에 대한 Loss 값이 이전보다 커지겠죠!? 그말은 결국 학습 데이터는 이전보다 못 맞추는 것을 의미하게 됩니다.

결국 가중치 규제를 적용함으로써 모델이 "학습 데이터에 덜 집중하게 되고 검증(또는 테스트) 데이터에 좀 더 신경을 쓰게 되고 결국 이는 과적합 문제를 해결하는 데 기여한다"라고 이해하면 좋을 것 같습니다!

더 자세한 건 강사님께서 달아주실 답변을 더 참고하면 좋을 것 같습니다! 제 의견은 참고만 해주세요!

Hong

손실 함수에 대해서 질문 있습니다.

이 글과 비슷한 Q&A

settings.jason 3가지

colab 환경에서 Autoencoder 구현하였으나 결과가 보이지 않는 분들 참고사항

DBSCAN 실습 결과

DBSCAN 질문