inflearn logo
강의

Course

Instructor

Deep Learning and PyTorch Bootcamp for Beginners (Easy! From Basics to ChatGPT's Core Transformer) [Data Analysis/Science Part 3]

Understanding Deep Learning Implementation Patterns with PyTorch

[Pytorch 기울기의 누적 곱? 누적 합?]

135

hhs834373

4 asked

0

머신러닝 딥러닝 인공신경망 pytorch vision-transformer

Answer 1

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다.

hhs834373님이 질문하신 optimizer.zero_grad()와 관련된 부분을 명확히 이해하는 게 중요합니다. PyTorch에서 optimizer.zero_grad()를 사용하는 이유는 이전 미분 값(gradient)이 다음 계산에 영향을 미치지 않도록 매번 해당 값을 초기화하는 것입니다. PyTorch에서는 기본적으로 미분 값이 누적되어 더해지기 때문에, 매 반복(iteration) 시마다 이전의 gradient 값을 0으로 초기화하지 않으면, 새로운 gradient 값에 추가로 더해지는 형태가 됩니다.

예를 들어, 만약 optimizer.zero_grad()를 호출하지 않으면, 매 gradient 계산 시 이전의 계산값이 포함되어, 결국 의미 없는 누적(graph의 한도 초과)으로 정확한 학습이 이루어지지 않을 수 있습니다. 따라서, gradient가 계속해서 누적되는 것을 방지하고, 새로운 미분 계산이 정확히 이루어지도록 하기 위해 항상 optimizer의 zero_grad() 메서드를 호출하여 초기화해야 합니다.

질문에서 언급하신 “곱해지는 것”에 대한 표현은 설명에 오해가 있었던 것으로 보입니다. PyTorch의 기본 동작은 gradient가 누적해서 더해지는 것입니다. 첨부한 이미지를 보시면 ( W.\text{grad} \gets W.\text{grad} + \frac{\partial \text{loss}}{\partial W} )와 같은 형태로, 새로운 gradient가 이전의 값과 “더해지는” 누적 방식으로 설정됩니다.

이와 관련한 자세한 설명은 optimizer.zero_grad()에 관한 질문입니다에서 볼 수 있습니다. 이 URL은 기존의 질문과 답변을 통해 보다 깊이 있는 이해를 돕고자 추천드립니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

import torch가 안되는 경우는 어떻게 하나요?

0

16

1

강의 필기는 어떻게 하나요?

0

85

1

섹션 5퀴즈 4번 문제 보기 오류로 보임

0

63

1

섹션17 81번이랑 82번 강의가 중복되는 것 같아서 질문드립니다.

0

88

2

강의교안이 안 옵니다

0

80

1

17-2강 Transfer learning 실습 관련 질문

0

134

2

13섹션 강의자료가 없네요^^

0

92

1

강의자료가 없네요.

0

106

2

LSTM 모델 학습 관련한 질문입니다.

0

127

1

MSE LOSS 관련

0

131

1

test시 minibatch 사용?

0

133

1

Average Test loss 계산식 문의

0

101

1

파이토치 설치

0

247

1

3d 텐서에서의 축 구분 질문

0

119

1

항상 tensor([0., 0., 0.]) 형식으로만 나오는 이유

0

111

1

강의자료 PDF 다운로드에 관하여

0

132

1

[실무에서 판다스 copy()메서드의 깊은복사 얕은복사 조정 소요가 생길까?]

0

116

1

섹션 다양한 Optimizer 정리하기 중 딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 강의에서 오류가 발생합니다.

0

148

1

마지막에 confusion matrix 작성할때

0

157

1

아나콘다를 사용하지 않고 파이토치 사용하는 방법

0

853

1

test data 의 loss 계산식 문의

0

288

1

차원 출력 관련 문의

0

245

1

섹션 7-4 당뇨병

0

387

3

BackPropagation 질문입니다

0

376

1