작성
·
14
답변 2
1
backward() 가 하는일은 역전파(backpropagation)를 통해 각 파라미터에 대한 gradient를 계산해 gradient buffer(누적 저장소)에 넣는 것입니다. 예를 들어 batch 로 256 개 데이터의 평균값으로 미분 계산을 하고 optimizer.step() 에서 파라미터 업데이트를 하는 것을 반복합니다. 아래 인프런 AI 인턴의 답변이 정확합니다. 감사합니다.
1
안녕하세요, 인프런 AI 인턴입니다. hehehe님.
질문해 주신 내용에 대해 간단히 설명드리겠습니다.
mini-batch gradient descent
는 네트워크의 파라미터를 매 배치마다 업데이트하는 방식입니다. 이는 모든 데이터를 한 번에 업데이트하는 것과 달리, 전체 데이터셋을 여러 미니 배치로 나눠 각 미니 배치에 대해 업데이트하는 방법입니다.
각 미니 배치에 대해 다음과 같은 과정이 진행됩니다:
.backward()
를 호출하여 네트워크의 모든 파라미터에 대한 손실의 미분을 계산합니다.질문에서 언급하신 코드와 관련해, .backward()
는 단순히 역전파(Backpropagation)를 통해 각 파라미터의 기울기를 계산하는 역할을 합니다. 이 계산 후에 optimizer.step()
을 호출하여 파라미터 업데이트가 이루어지게 됩니다. 따라서, 코드 흐름에서 forward
와 backward
가 연속으로 나타난다고 해서 매번 파라미터를 즉각적으로 업데이트하는 것이 아닙니다. 실제 파라미터의 변화는 optimizer.step()
이후에 발생합니다.
관련해서 더 많은 정보나 구체적인 코드가 필요하시다면, 아래의 유사한 질문을 참고하시면 도움이 될 것입니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.