강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

최규형님의 프로필 이미지
최규형

작성한 질문수

강화학습 입문에서 Deep Q-learning/Policy Gradient까지

Q-learning 과 Deep Q-learning 비교

미분 결과가 왜 저렇게 나오는지 궁금합니다.

작성

·

15

0

6:49쯤에, MSBE = (delta_{t+1})^2의 미분 결과가 2*(delta_{t+1})* (\partial(delta_{t+1}}); 합성함수의 미분, 의 형태가 아닌 화면에 나오는 것처럼 미분이 되는지 궁금합니다.

 

추가로 policy improvement step에서 각 action에 대해서 value가 높은 weight로 parameters을 업데이트 하면서 자동적으로 최적pi를 찾게 된다고 보는 게 맞는 이해일까요?

답변 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
지식공유자

image.png

를 미분하면 (연쇄법칙)

image.png


따라서,

image.png

입니다.

두번째 질문하신 내용은 잘 이해하고 계십니다. 즉, value(Q)가 높은 action은 gradient에 큰 양수 weight를 줘서 그 action이 선택될 확률이 커지도록 하고, value가 낮으면 선택 확률을 줄이는 방향으로 학습됩니다. 좋은 질문 감사합니다.

최규형님의 프로필 이미지
최규형
질문자

앞에 2가 없어서 헷갈렸습니다. 감사합니다!

최규형님의 프로필 이미지
최규형

작성한 질문수

질문하기