강의

멘토링

커뮤니티

Inflearn コミュニティ Q&A

hyounghe07248680 のプロフィール画像
hyounghe07248680

投稿した質問数

強化学習入門からDeep Q-learning/Policy Gradientまで

Q-learningとDeep Q-learningの比較

미분 결과가 왜 저렇게 나오는지 궁금합니다.

作成

·

52

0

6:49쯤에, MSBE = (delta_{t+1})^2의 미분 결과가 2*(delta_{t+1})* (\partial(delta_{t+1}}); 합성함수의 미분, 의 형태가 아닌 화면에 나오는 것처럼 미분이 되는지 궁금합니다.

 

추가로 policy improvement step에서 각 action에 대해서 value가 높은 weight로 parameters을 업데이트 하면서 자동적으로 최적pi를 찾게 된다고 보는 게 맞는 이해일까요?

python딥러닝강화학습pytorch

回答 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
インストラクター

image.png

를 미분하면 (연쇄법칙)

image.png


따라서,

image.png

입니다.

두번째 질문하신 내용은 잘 이해하고 계십니다. 즉, value(Q)가 높은 action은 gradient에 큰 양수 weight를 줘서 그 action이 선택될 확률이 커지도록 하고, value가 낮으면 선택 확률을 줄이는 방향으로 학습됩니다. 좋은 질문 감사합니다.

앞에 2가 없어서 헷갈렸습니다. 감사합니다!

hyounghe07248680 のプロフィール画像
hyounghe07248680

投稿した質問数

質問する