작성한 질문수
강화학습 기초 이론
Markov Decision Process
작성
·
362
0
벨만 방정식에서 v=R+감마Pv 에서 첫번째 v와 두번째 v는 다른 state의 value function인데 왜 v=(1-감바P)^-1R로 나타낼수 있나요? 이해가 잘안가요
답변