선생님, 질문이 있습니다.

딥러닝 CNN 완벽 가이드 - Fundamental 편

심층신경망의 이해와 오차 역전파(Backpropagation) 개요

해결된 질문

작성

210

시간 15:11에서 결국에는 1,2과정을 반복하게 된다면

각 신경망에서 구했던 미분값을 cache하여 저장해뒀다가

역전파의 과정에서 활용을 하거나 하지는 않나요?

물론 GD를 반복하면서 각 층의 가중치 배열의 값들이 계속 update가 될테지만 어차피 같은 대상에 대하여 같은 미분 연산을 하게 되니까요

무언가 dynamic programming처럼 각 층의 각 노드별로

결과값을 저장해두면 역전파 시 속도가 향상될거같다고 추측은 해보는데 이게 맞나요??

감사합니다.

답변 1

지식공유자

이건 정확히는 잘 모르겠습니다만, 굳이 layer별로 이전에 계산된 미분값을 저장할 필요는 없을 것 같습니다.

경사하강법 자체가 계속 iteration하면 loss를 줄이는 방식으로 진행한다가 전제가 되어 있기 때문에 저장할 필요가 없다고 생각합니다.

질문자

선생님, 답변해주셔서 정말 감사합니다!! 이전 질문글에 3번 질문은 계속 듣다보니 해결되었습니다 ㅎㅎㅎㅎ

인프런 커뮤니티 질문&답변