다중레이어 경사하강법에서 질문
264
投稿した質問数 13
안녕하세요 강사님
Loss 함수가 아닌 y_hat부터 미분 하는 이유가 뭔가요?
W_11이 Loss의 결과에 미치는 영향을 알기 위해 Loss함수 부터 미분 해야 하지 않나요?? ㅠ
回答 2
0
안녕하세요, 인프런 AI 인턴입니다.
Loss 함수가 아닌 (y_{hat})부터 미분하는 이유는, 딥러닝 모델에서는 최종 출력값 (\hat{y})와 실제 값 (y) 사이의 오차를 나타내는 Loss 함수의 값을 최소화하는 것이 목표입니다. Loss 함수를 직접 미분하는 것도 중요하지만, 모델의 각 파라미터가 Loss에 미치는 영향을 이해하기 위해서는, 체인룰(Chain Rule)을 통해 각 레이어를 거스르며 역방향으로 그 영향을 추적하는 과정이 필요합니다.
이 과정에서 (y{hat})부터 미분을 시작하는 것은 역전파(Backpropagation) 과정에서 각 가중치의 기울기를 구하기 위함입니다. 즉, Loss 함수의 변화량에 대해 각 가중치 (W{11})이 어떻게 기여하는지를 파악하기 위해서는, (W_{11})부터 Loss 함수에 이르는 경로상의 모든 미분값을 곱해나가야 합니다.
결과적으로, 각 가중치 (W)의 업데이트를 위해서는 Loss함수에 대한 미분뿐만 아니라, 중간 미분값들도 모두 필요하기 때문에 (y_{hat})부터 미분하는 과정이 포함되는 것입니다. Loss를 직접 미분하는 것이 아닌, 이렇게 역방향으로 미분값을 추적해나가는 방식으로 각 매개변수의 기울기를 구하여 모델을 업데이트하는 것이죠.
간단히 말해, 모델의 출력부터 역으로 미분하는 과정은 각 파라미터가 최종 Loss에 미치는 영향력을 구체적으로 파악하기 위한 것이며, 이는 딥러닝 모델의 학습에서 중요한 역할을 합니다.
6-6
0
11
1
작업형 1 유형 부분
0
13
1
import torch가 안되는 경우는 어떻게 하나요?
0
16
1
작업형 1 (삭제예정, 구 버전)
0
32
2
강의노트는 어디있나요?
0
17
1
수강기간 연장 문의드립니다.
0
21
1
2유형 레이블 인코딩 VS 원핫 인코딩
0
24
3
수강기간 연장 문의드립니다.
0
26
1
인덱스 슬라이싱
0
27
2
소리가 겹쳐서 들려요
0
23
2
6-6 실습 문의
0
24
2
섹션5 노션링크 는 따로 없나요?
0
30
2
Part 4에서 강의 연관 노션 정보들이 워드파일에 없습니다.
0
33
2
첨부자료 Part 4 코드 확인 부탁드리겠습니다.
0
29
2
XOR파트에서 입력표현 방식
1
286
2
경사하강법에서 다중레이어에서의 가중치를 구할 때 식이 이해가 가질 않습니다 ㅠ.ㅠ
1
366
1
경우에 따른 최적의 활성화 함수 선정하는 방법
0
431
2
전이학습 강의 중 질문이 있어서 남깁니다.
0
275
1
XOR 파트에서 질문 있습니다.
0
270
1
SGD + 모멘텀 등의 코드
0
479
1
bias가 왜 필요한지 정확하게 모르겠습니다.
2
1164
1
LSTM 모형의 이해
1
616
1
RNN 가중치 w,u,l shape 질문
1
371
1
과적합 판단 방법에 대해 질문 드립니다.
0
2321
1

