인프런 커뮤니티 질문&답변
미분 결과가 왜 저렇게 나오는지 궁금합니다.
작성
·
27
답변 1
0
YoungJea Oh
지식공유자
를 미분하면 (연쇄법칙)

따라서,

입니다.
두번째 질문하신 내용은 잘 이해하고 계십니다. 즉, value(Q)가 높은 action은 gradient에 큰 양수 weight를 줘서 그 action이 선택될 확률이 커지도록 하고, value가 낮으면 선택 확률을 줄이는 방향으로 학습됩니다. 좋은 질문 감사합니다.
작성
·
27
답변 1
0
를 미분하면 (연쇄법칙)

따라서,

입니다.
두번째 질문하신 내용은 잘 이해하고 계십니다. 즉, value(Q)가 높은 action은 gradient에 큰 양수 weight를 줘서 그 action이 선택될 확률이 커지도록 하고, value가 낮으면 선택 확률을 줄이는 방향으로 학습됩니다. 좋은 질문 감사합니다.
앞에 2가 없어서 헷갈렸습니다. 감사합니다!