강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

윤창규님의 프로필 이미지
윤창규

작성한 질문수

강화학습 기초 이론

Markov Decision Process

강화학습 2강

작성

·

362

0

벨만 방정식에서 v=R+감마Pv 에서 첫번째 v와 두번째 v는 다른 state의 value function인데 왜 v=(1-감바P)^-1R로 나타낼수 있나요? 이해가 잘안가요

답변

답변을 기다리고 있는 질문이에요
첫번째 답변을 남겨보세요!
윤창규님의 프로필 이미지
윤창규

작성한 질문수

질문하기