작성한 질문수
강화학습 입문에서 Deep Q-learning/Policy Gradient까지
Q-learning 과 Deep Q-learning 비교
작성
·
15
0
6:49쯤에, MSBE = (delta_{t+1})^2의 미분 결과가 2*(delta_{t+1})* (\partial(delta_{t+1}}); 합성함수의 미분, 의 형태가 아닌 화면에 나오는 것처럼 미분이 되는지 궁금합니다.
추가로 policy improvement step에서 각 action에 대해서 value가 높은 weight로 parameters을 업데이트 하면서 자동적으로 최적pi를 찾게 된다고 보는 게 맞는 이해일까요?
답변 1
를 미분하면 (연쇄법칙)
따라서,
입니다.
두번째 질문하신 내용은 잘 이해하고 계십니다. 즉, value(Q)가 높은 action은 gradient에 큰 양수 weight를 줘서 그 action이 선택될 확률이 커지도록 하고, value가 낮으면 선택 확률을 줄이는 방향으로 학습됩니다. 좋은 질문 감사합니다.
앞에 2가 없어서 헷갈렸습니다. 감사합니다!
앞에 2가 없어서 헷갈렸습니다. 감사합니다!