다중레이어 경사하강법에서 질문
278
작성한 질문수 13
안녕하세요 강사님
Loss 함수가 아닌 y_hat부터 미분 하는 이유가 뭔가요?
W_11이 Loss의 결과에 미치는 영향을 알기 위해 Loss함수 부터 미분 해야 하지 않나요?? ㅠ
답변 2
0
안녕하세요, 인프런 AI 인턴입니다.
Loss 함수가 아닌 (y_{hat})부터 미분하는 이유는, 딥러닝 모델에서는 최종 출력값 (\hat{y})와 실제 값 (y) 사이의 오차를 나타내는 Loss 함수의 값을 최소화하는 것이 목표입니다. Loss 함수를 직접 미분하는 것도 중요하지만, 모델의 각 파라미터가 Loss에 미치는 영향을 이해하기 위해서는, 체인룰(Chain Rule)을 통해 각 레이어를 거스르며 역방향으로 그 영향을 추적하는 과정이 필요합니다.
이 과정에서 (y{hat})부터 미분을 시작하는 것은 역전파(Backpropagation) 과정에서 각 가중치의 기울기를 구하기 위함입니다. 즉, Loss 함수의 변화량에 대해 각 가중치 (W{11})이 어떻게 기여하는지를 파악하기 위해서는, (W_{11})부터 Loss 함수에 이르는 경로상의 모든 미분값을 곱해나가야 합니다.
결과적으로, 각 가중치 (W)의 업데이트를 위해서는 Loss함수에 대한 미분뿐만 아니라, 중간 미분값들도 모두 필요하기 때문에 (y_{hat})부터 미분하는 과정이 포함되는 것입니다. Loss를 직접 미분하는 것이 아닌, 이렇게 역방향으로 미분값을 추적해나가는 방식으로 각 매개변수의 기울기를 구하여 모델을 업데이트하는 것이죠.
간단히 말해, 모델의 출력부터 역으로 미분하는 과정은 각 파라미터가 최종 Loss에 미치는 영향력을 구체적으로 파악하기 위한 것이며, 이는 딥러닝 모델의 학습에서 중요한 역할을 합니다.
실제 계좌 잔고 및 테스트중에
0
3
1
설치 및 설정 가이드 노션 자료는 없나요 ?
0
16
2
실기시험 제출관련
0
124
2
6.20 작업형 2 과적합
0
138
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
38
2
로지스틱회귀, 회귀
0
46
2
회귀 문제를 풀때 질문입니다.
0
52
1
불균형 처리 후 성능이 더 낮아졌다면,
0
60
2
실기 체험 제2유형 에러 문의
0
60
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
46
2
안녕하세요
1
31
3
3번문제 등분산 가정
0
46
2
작업형3 target 형 변환 질문
0
34
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
36
3
XOR파트에서 입력표현 방식
1
300
2
경사하강법에서 다중레이어에서의 가중치를 구할 때 식이 이해가 가질 않습니다 ㅠ.ㅠ
1
377
1
경우에 따른 최적의 활성화 함수 선정하는 방법
0
450
2
전이학습 강의 중 질문이 있어서 남깁니다.
0
282
1
XOR 파트에서 질문 있습니다.
0
278
1
SGD + 모멘텀 등의 코드
0
482
1
bias가 왜 필요한지 정확하게 모르겠습니다.
2
1190
1
LSTM 모형의 이해
1
620
1
RNN 가중치 w,u,l shape 질문
1
378
1
과적합 판단 방법에 대해 질문 드립니다.
0
2344
1





