인프런 커뮤니티 질문&답변
미분 결과가 왜 저렇게 나오는지 궁금합니다.
작성
·
67
퀴즈
66%나 틀려요. 한번 도전해보세요!
현대 강화 학습에서 심층 학습이 주로 해결하는 핵심 과제는 무엇일까요?
시간 차이 신용 할당 (Temporal Credit Assignment)
상태 및 정책 표현 (Representation)
탐험과 활용의 균형 (Exploration vs. Exploitation)
희소한 보상 처리 (Sparse Rewards)
답변 1
0
YoungJea Oh
지식공유자
를 미분하면 (연쇄법칙)

따라서,

입니다.
두번째 질문하신 내용은 잘 이해하고 계십니다. 즉, value(Q)가 높은 action은 gradient에 큰 양수 weight를 줘서 그 action이 선택될 확률이 커지도록 하고, value가 낮으면 선택 확률을 줄이는 방향으로 학습됩니다. 좋은 질문 감사합니다.






앞에 2가 없어서 헷갈렸습니다. 감사합니다!