inflearn logo
강의

Course

Instructor

Understanding the concept of deep learning leading to practical artificial intelligence

Stochastic Gradient Descent and Optimizers

모멘텀 기반, 가변학습률, adam 식 보충 설명 요구

510

juliaanswls5140

2 asked

1

여러가지 최적화 방법에서 모멘텀 기반과 가변학습률 식의 설명이 부족하다고 생각되어 보충 설명을 요구드립니다. 기존의 확률적 경사 하강법(SGD)의 경우 손실함수 L을 가중치로 미분하고 step size를 곱하여 가중치에서 뺀 후 새로운 가중치로 업데이트 한다는 공식은 이해가 되었습니다. 이 공식에서 모멘텀 기반과 가변학습률의 공식으로 변형 되었을 때 각 각의 v와 G가 다른 은닉층의 가중치를 의미하는 것인지 아니면 새로운 방식으로 가중치를 업데이트 하기 위해서 임의로 생성한 변수인지 헷갈립니다. 아니면 다른 의미의 변수 인가요? 은닉층의 가중치이든 새로운 변수이든 각 변수가 소문자, 대문자인 이유도 알고 싶습니다. 어떤식으로 변형된 건지에 대한 설명이 많이 축약되었다고 생각하고 뒤에 나오는 Adam 기법을 설명해주실 때에도 모멘텀 기반과 가변학습률이 어떤식으로 식에 영향을 준 건지 전체적으로 이해가 잘 가지 않습니다. 좀 더 세세하게 설명해 주실 수 있으실까요?

인공신경망 머신러닝 배워볼래요? 딥러닝

Answer 1

0

dlbro

안녕하세요.

장기 출장 중이라 답변이 늦었습니다.

좋은 질문 감사합니다.

SGD의 단점 중 하나가 learning rate(step size)이 고정이라는 점입니다. 따라서 모멘텀이나 가변학습률 모두 고정된 learning rate을 개선하는데 목적에 있습니다. 즉, 언급하신 다른 가중치(model parameters)를 사용한다거나 은닉층에 대한 튜닝이 아니고 가중치를 업데이트 할 때 어떤 방식으로 할 건지에 따라 방법이 나눠집니다.

다만 소개 된 모든 방법이 경사하강법을 기반으로 한 것이기 때문에 종류에 관계없이 손실 함수를 기준으로 각 가중치마다 그래디언트를 계산하니까 역전파 시 은닉층의 가중치가 사용됩니다.

 

모멘텀과 ADAM의 큰 틀을 말씀 드리면 모멘텀은 SGD에 관성이라는 컨셉을 가지고 와서 local minima에 빠지지 않게 SGD에 추가항을 넣었다고 생각하시면 되고 ADAM은 learning rate을 iteration마다 직접 변형하기 위해 learning rate 텀 mu을 변형한 방법이라고 이해하시면 됩니다.

 

v, G의 대소문자는 큰 의미는 없습니다 ^^;; 그리고 가중치 w가 업데이트 되듯이 v, G도 소개 된 식에 의해 업데이트 되는 변수입니다. 초기 변수는 v=0, G=0으로 시작해서 소개된 식에 의해 업데이트 됩니다!

 

열공하세요 :)

 

 

numpy의 shape

0

583

1

tfjs-node 안깔려서

0

1102

1

강의자료 요청드립니다!

0

538

1

하이퍼 파라미터 튜닝 범위

0

608

1

딥러닝 코드에 Batch Normalization 적용해보기 질문입니다

0

580

1

flyctl 관련 재문의 드립니다.

0

594

1

Adversarial-based Transfer Learning과 GAN에 대해 질문 드립니다

1

651

1

알아두기 2.3.8 이진 교차 엔트로피 함수 식 괄호 여부 질문

0

320

1

공식 표현이 이해가 안됩니다...

0

404

1

Input size 및 노드수 관련 문의

1

514

2

안녕하세요 비지도학습 문의드려요

1

218

1

강의 공부 내용을 정리해서 개인 블로그에 업로드해도 괜찮을까요?

0

366

1

손실함수 교차엔트로피 함수

0

1028

3

계산 오류 (영상 16:04~16:53)

2

278

1

손실함수 예제 질문

0

292

1

XOR 강의 중에 질문있습니다

0

209

2

Grad CAM에 관한 질문 입니다.

0

237

1

Adversarial-based 전이 학습에 관한 질문 입니다.

1

276

2

드랍아웃과 Convolutional Autoencoder에 대한 간단한 질문입니다.

1

302

2

Sparse Autoencoder의 식에서 궁금한 점이 있습니다.

1

351

4

Attention Mechanism이 이해가 잘 안되네요

1

404

2

간단한 궁금증입니다!!

1

302

2

필터사이즈와 컨볼루션레이어 크기의 관계에서

1

494

2

XOR 문제 행렬 연산

6

581

1