inflearn logo
강의

Course

Instructor

Understanding the concept of deep learning leading to practical artificial intelligence

Gradient Descent

다중레이어 경사하강법에서 질문

264

kokp

13 asked

0

안녕하세요 강사님

Loss 함수가 아닌 y_hat부터 미분 하는 이유가 뭔가요?

W_11이 Loss의 결과에 미치는 영향을 알기 위해 Loss함수 부터 미분 해야 하지 않나요?? ㅠ

머신러닝 딥러닝 인공신경망

Answer 2

0

dlbro

안녕하세요.

손실함수에서 y_hat이 변수에 해당되기 때문에 y_hat에 대해서 미분한 것입니다!

 

감사합니다.

 

딥러닝호형 드림

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다.

Loss 함수가 아닌 (y_{hat})부터 미분하는 이유는, 딥러닝 모델에서는 최종 출력값 (\hat{y})와 실제 값 (y) 사이의 오차를 나타내는 Loss 함수의 값을 최소화하는 것이 목표입니다. Loss 함수를 직접 미분하는 것도 중요하지만, 모델의 각 파라미터가 Loss에 미치는 영향을 이해하기 위해서는, 체인룰(Chain Rule)을 통해 각 레이어를 거스르며 역방향으로 그 영향을 추적하는 과정이 필요합니다.

이 과정에서 (y{hat})부터 미분을 시작하는 것은 역전파(Backpropagation) 과정에서 각 가중치의 기울기를 구하기 위함입니다. 즉, Loss 함수의 변화량에 대해 각 가중치 (W{11})이 어떻게 기여하는지를 파악하기 위해서는, (W_{11})부터 Loss 함수에 이르는 경로상의 모든 미분값을 곱해나가야 합니다.

결과적으로, 각 가중치 (W)의 업데이트를 위해서는 Loss함수에 대한 미분뿐만 아니라, 중간 미분값들도 모두 필요하기 때문에 (y_{hat})부터 미분하는 과정이 포함되는 것입니다. Loss를 직접 미분하는 것이 아닌, 이렇게 역방향으로 미분값을 추적해나가는 방식으로 각 매개변수의 기울기를 구하여 모델을 업데이트하는 것이죠.

간단히 말해, 모델의 출력부터 역으로 미분하는 과정은 각 파라미터가 최종 Loss에 미치는 영향력을 구체적으로 파악하기 위한 것이며, 이는 딥러닝 모델의 학습에서 중요한 역할을 합니다.

6-6

0

8

1

작업형 1 유형 부분

0

11

1

import torch가 안되는 경우는 어떻게 하나요?

0

16

1

작업형 1 (삭제예정, 구 버전)

0

31

2

강의노트는 어디있나요?

0

17

1

수강기간 연장 문의드립니다.

0

21

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

24

3

수강기간 연장 문의드립니다.

0

26

1

인덱스 슬라이싱

0

27

2

소리가 겹쳐서 들려요

0

21

2

6-6 실습 문의

0

24

2

섹션5 노션링크 는 따로 없나요?

0

30

2

Part 4에서 강의 연관 노션 정보들이 워드파일에 없습니다.

0

33

2

첨부자료 Part 4 코드 확인 부탁드리겠습니다.

0

29

2

XOR파트에서 입력표현 방식

1

286

2

경사하강법에서 다중레이어에서의 가중치를 구할 때 식이 이해가 가질 않습니다 ㅠ.ㅠ

1

366

1

경우에 따른 최적의 활성화 함수 선정하는 방법

0

431

2

전이학습 강의 중 질문이 있어서 남깁니다.

0

275

1

XOR 파트에서 질문 있습니다.

0

270

1

SGD + 모멘텀 등의 코드

0

479

1

bias가 왜 필요한지 정확하게 모르겠습니다.

2

1164

1

LSTM 모형의 이해

1

616

1

RNN 가중치 w,u,l shape 질문

1

371

1

과적합 판단 방법에 대해 질문 드립니다.

0

2321

1