강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của hyounghe07248680
hyounghe07248680

câu hỏi đã được viết

Từ Giới thiệu về Học tăng cường đến Q-learning/Dải chính sách sâu

So sánh Q-learning và Deep Q-learning

미분 결과가 왜 저렇게 나오는지 궁금합니다.

Viết

·

52

0

6:49쯤에, MSBE = (delta_{t+1})^2의 미분 결과가 2*(delta_{t+1})* (\partial(delta_{t+1}}); 합성함수의 미분, 의 형태가 아닌 화면에 나오는 것처럼 미분이 되는지 궁금합니다.

 

추가로 policy improvement step에서 각 action에 대해서 value가 높은 weight로 parameters을 업데이트 하면서 자동적으로 최적pi를 찾게 된다고 보는 게 맞는 이해일까요?

python딥러닝강화학습pytorch

Câu trả lời 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
Người chia sẻ kiến thức

image.png

를 미분하면 (연쇄법칙)

image.png


따라서,

image.png

입니다.

두번째 질문하신 내용은 잘 이해하고 계십니다. 즉, value(Q)가 높은 action은 gradient에 큰 양수 weight를 줘서 그 action이 선택될 확률이 커지도록 하고, value가 낮으면 선택 확률을 줄이는 방향으로 학습됩니다. 좋은 질문 감사합니다.

hyounghe07248680님의 프로필 이미지
hyounghe07248680
Người đặt câu hỏi

앞에 2가 없어서 헷갈렸습니다. 감사합니다!

Hình ảnh hồ sơ của hyounghe07248680
hyounghe07248680

câu hỏi đã được viết

Đặt câu hỏi