inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

실전 인공지능으로 이어지는 딥러닝 개념 잡기

경사 하강법(Gradient Descent)

다중레이어 경사하강법에서 질문

278

kokp

작성한 질문수 13

0

안녕하세요 강사님

Loss 함수가 아닌 y_hat부터 미분 하는 이유가 뭔가요?

W_11이 Loss의 결과에 미치는 영향을 알기 위해 Loss함수 부터 미분 해야 하지 않나요?? ㅠ

머신러닝 딥러닝 인공신경망

답변 2

0

딥러닝호형

안녕하세요.

손실함수에서 y_hat이 변수에 해당되기 때문에 y_hat에 대해서 미분한 것입니다!

 

감사합니다.

 

딥러닝호형 드림

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

Loss 함수가 아닌 (y_{hat})부터 미분하는 이유는, 딥러닝 모델에서는 최종 출력값 (\hat{y})와 실제 값 (y) 사이의 오차를 나타내는 Loss 함수의 값을 최소화하는 것이 목표입니다. Loss 함수를 직접 미분하는 것도 중요하지만, 모델의 각 파라미터가 Loss에 미치는 영향을 이해하기 위해서는, 체인룰(Chain Rule)을 통해 각 레이어를 거스르며 역방향으로 그 영향을 추적하는 과정이 필요합니다.

이 과정에서 (y{hat})부터 미분을 시작하는 것은 역전파(Backpropagation) 과정에서 각 가중치의 기울기를 구하기 위함입니다. 즉, Loss 함수의 변화량에 대해 각 가중치 (W{11})이 어떻게 기여하는지를 파악하기 위해서는, (W_{11})부터 Loss 함수에 이르는 경로상의 모든 미분값을 곱해나가야 합니다.

결과적으로, 각 가중치 (W)의 업데이트를 위해서는 Loss함수에 대한 미분뿐만 아니라, 중간 미분값들도 모두 필요하기 때문에 (y_{hat})부터 미분하는 과정이 포함되는 것입니다. Loss를 직접 미분하는 것이 아닌, 이렇게 역방향으로 미분값을 추적해나가는 방식으로 각 매개변수의 기울기를 구하여 모델을 업데이트하는 것이죠.

간단히 말해, 모델의 출력부터 역으로 미분하는 과정은 각 파라미터가 최종 Loss에 미치는 영향력을 구체적으로 파악하기 위한 것이며, 이는 딥러닝 모델의 학습에서 중요한 역할을 합니다.

실제 계좌 잔고 및 테스트중에

0

3

1

설치 및 설정 가이드 노션 자료는 없나요 ?

0

16

2

실기시험 제출관련

0

124

2

6.20 작업형 2 과적합

0

138

3

코딩팡 장업형2 베이스 라인 인코딩 종류 질문

0

38

2

로지스틱회귀, 회귀

0

46

2

회귀 문제를 풀때 질문입니다.

0

52

1

불균형 처리 후 성능이 더 낮아졌다면,

0

60

2

실기 체험 제2유형 에러 문의

0

60

1

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

46

2

안녕하세요

1

31

3

3번문제 등분산 가정

0

46

2

작업형3 target 형 변환 질문

0

34

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

36

3

XOR파트에서 입력표현 방식

1

300

2

경사하강법에서 다중레이어에서의 가중치를 구할 때 식이 이해가 가질 않습니다 ㅠ.ㅠ

1

377

1

경우에 따른 최적의 활성화 함수 선정하는 방법

0

450

2

전이학습 강의 중 질문이 있어서 남깁니다.

0

282

1

XOR 파트에서 질문 있습니다.

0

278

1

SGD + 모멘텀 등의 코드

0

482

1

bias가 왜 필요한지 정확하게 모르겠습니다.

2

1190

1

LSTM 모형의 이해

1

620

1

RNN 가중치 w,u,l shape 질문

1

378

1

과적합 판단 방법에 대해 질문 드립니다.

0

2344

1