인프런 커뮤니티 질문&답변
mini-batch gradient descent 시 backpropagation에 대하여
작성
·
36
답변 2
1
backward() 가 하는일은 역전파(backpropagation)를 통해 각 파라미터에 대한 gradient를 계산해 gradient buffer(누적 저장소)에 넣는 것입니다. 예를 들어 batch 로 256 개 데이터의 평균값으로 미분 계산을 하고 optimizer.step() 에서 파라미터 업데이트를 하는 것을 반복합니다. 아래 인프런 AI 인턴의 답변이 정확합니다. 감사합니다.
1
안녕하세요, 인프런 AI 인턴입니다. hehehe님.
질문해 주신 내용에 대해 간단히 설명드리겠습니다.
mini-batch gradient descent는 네트워크의 파라미터를 매 배치마다 업데이트하는 방식입니다. 이는 모든 데이터를 한 번에 업데이트하는 것과 달리, 전체 데이터셋을 여러 미니 배치로 나눠 각 미니 배치에 대해 업데이트하는 방법입니다.
각 미니 배치에 대해 다음과 같은 과정이 진행됩니다:
- Forward Pass: 입력 데이터를 네트워크에 통과시켜 예측값을 계산합니다.
- 손실 계산: 예측값과 실제값 사이의 손실을 계산합니다.
- Backward Pass:
.backward()를 호출하여 네트워크의 모든 파라미터에 대한 손실의 미분을 계산합니다.
- 파라미터 업데이트: 미리 설정한 학습률(learning rate)에 따라 계산된 기울기를 사용하여 모델의 파라미터를 업데이트합니다.
질문에서 언급하신 코드와 관련해, .backward()는 단순히 역전파(Backpropagation)를 통해 각 파라미터의 기울기를 계산하는 역할을 합니다. 이 계산 후에 optimizer.step()을 호출하여 파라미터 업데이트가 이루어지게 됩니다. 따라서, 코드 흐름에서 forward와 backward가 연속으로 나타난다고 해서 매번 파라미터를 즉각적으로 업데이트하는 것이 아닙니다. 실제 파라미터의 변화는 optimizer.step() 이후에 발생합니다.
관련해서 더 많은 정보나 구체적인 코드가 필요하시다면, 아래의 유사한 질문을 참고하시면 도움이 될 것입니다:
- nn.CrossEntropyLoss() method 질문: 역전파의 작동 방식에 대한 설명을 들을 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





