모멘텀 기반, 가변학습률, adam 식 보충 설명 요구
510
投稿した質問数 2
여러가지 최적화 방법에서 모멘텀 기반과 가변학습률 식의 설명이 부족하다고 생각되어 보충 설명을 요구드립니다. 기존의 확률적 경사 하강법(SGD)의 경우 손실함수 L을 가중치로 미분하고 step size를 곱하여 가중치에서 뺀 후 새로운 가중치로 업데이트 한다는 공식은 이해가 되었습니다. 이 공식에서 모멘텀 기반과 가변학습률의 공식으로 변형 되었을 때 각 각의 v와 G가 다른 은닉층의 가중치를 의미하는 것인지 아니면 새로운 방식으로 가중치를 업데이트 하기 위해서 임의로 생성한 변수인지 헷갈립니다. 아니면 다른 의미의 변수 인가요? 은닉층의 가중치이든 새로운 변수이든 각 변수가 소문자, 대문자인 이유도 알고 싶습니다. 어떤식으로 변형된 건지에 대한 설명이 많이 축약되었다고 생각하고 뒤에 나오는 Adam 기법을 설명해주실 때에도 모멘텀 기반과 가변학습률이 어떤식으로 식에 영향을 준 건지 전체적으로 이해가 잘 가지 않습니다. 좀 더 세세하게 설명해 주실 수 있으실까요?
回答 1
0
안녕하세요.
장기 출장 중이라 답변이 늦었습니다.
좋은 질문 감사합니다.
SGD의 단점 중 하나가 learning rate(step size)이 고정이라는 점입니다. 따라서 모멘텀이나 가변학습률 모두 고정된 learning rate을 개선하는데 목적에 있습니다. 즉, 언급하신 다른 가중치(model parameters)를 사용한다거나 은닉층에 대한 튜닝이 아니고 가중치를 업데이트 할 때 어떤 방식으로 할 건지에 따라 방법이 나눠집니다.
다만 소개 된 모든 방법이 경사하강법을 기반으로 한 것이기 때문에 종류에 관계없이 손실 함수를 기준으로 각 가중치마다 그래디언트를 계산하니까 역전파 시 은닉층의 가중치가 사용됩니다.
모멘텀과 ADAM의 큰 틀을 말씀 드리면 모멘텀은 SGD에 관성이라는 컨셉을 가지고 와서 local minima에 빠지지 않게 SGD에 추가항을 넣었다고 생각하시면 되고 ADAM은 learning rate을 iteration마다 직접 변형하기 위해 learning rate 텀 mu을 변형한 방법이라고 이해하시면 됩니다.
v, G의 대소문자는 큰 의미는 없습니다 ^^;; 그리고 가중치 w가 업데이트 되듯이 v, G도 소개 된 식에 의해 업데이트 되는 변수입니다. 초기 변수는 v=0, G=0으로 시작해서 소개된 식에 의해 업데이트 됩니다!
열공하세요 :)
numpy의 shape
0
583
1
tfjs-node 안깔려서
0
1102
1
강의자료 요청드립니다!
0
538
1
하이퍼 파라미터 튜닝 범위
0
608
1
딥러닝 코드에 Batch Normalization 적용해보기 질문입니다
0
580
1
flyctl 관련 재문의 드립니다.
0
594
1
Adversarial-based Transfer Learning과 GAN에 대해 질문 드립니다
1
651
1
알아두기 2.3.8 이진 교차 엔트로피 함수 식 괄호 여부 질문
0
320
1
공식 표현이 이해가 안됩니다...
0
404
1
Input size 및 노드수 관련 문의
1
514
2
안녕하세요 비지도학습 문의드려요
1
218
1
강의 공부 내용을 정리해서 개인 블로그에 업로드해도 괜찮을까요?
0
366
1
손실함수 교차엔트로피 함수
0
1028
3
계산 오류 (영상 16:04~16:53)
2
278
1
손실함수 예제 질문
0
292
1
XOR 강의 중에 질문있습니다
0
209
2
Grad CAM에 관한 질문 입니다.
0
237
1
Adversarial-based 전이 학습에 관한 질문 입니다.
1
276
2
드랍아웃과 Convolutional Autoencoder에 대한 간단한 질문입니다.
1
302
2
Sparse Autoencoder의 식에서 궁금한 점이 있습니다.
1
351
4
Attention Mechanism이 이해가 잘 안되네요
1
404
2
간단한 궁금증입니다!!
1
302
2
필터사이즈와 컨볼루션레이어 크기의 관계에서
1
494
2
XOR 문제 행렬 연산
6
581
1

