작성한 질문수
엑셀로 맛보는 딥러닝
경사하강법
작성
·
15
0
안녕하세요. 감사히 잘 듣고있습니다.
W_new = W_old - LearningRate*(dLoss/dw)로 정의되고, 여기서 dLoss/dw = (y_pred - y)*x 인것까지 이해했습니다.
궁금한 점은, 엑셀에서 실습할 때 dL_dw를 개별 x들에 대해서 구한 뒤, 이를 평균한 값을 lr에 곱해서 weight를 조정해주는데 왜 평균값을 사용하는건가요?
loss가 (y-y_pred)^2한 값을 평균하기 때문인가요?
감사합니다.
답변 1
네 이해하신부분이 정확히 맞습니다!
초반에 SGD를 설명하기 어려워 전체데이터 기준으로 업데이트를 합니다
이 전체 데이터에 대한 평균값이 결국 미분값이 됩니다
나중에 SGD개념이 들어가면 샘플을 MINIBATCH 단위로 샘플링을하고 그 미니배치의 평균으로 업데이트를 합니다