-
카테고리
-
세부 분야
딥러닝 · 머신러닝
-
해결 여부
미해결
MDP 상태가치 함수에서 기대값 관련 질문 드립니다.
22.09.14 20:10 작성 조회수 231
0
안녕하세요, 선생님
MDP 상태가치 함수에서 정책의 기대값 식이 이해가 잘 안갑니다. 기대값은 앞강의에서 알려주신 바와 같이 gain x 확률의 총합으로 정의되는데 이 정책의 기대값은 조건부 확률 pi의 합인데 어떻게 기대값이 되는건가요?
답변을 작성해보세요.
0
멀티코어
지식공유자2022.09.15
안녕하세요 Kevin Ryu님.
수강해주셔서 감사합니다.
기대값은 위 그림에서와 같이 주사위가 가질 수 있는 값(보상)과 그 값에 대한 확률(정책)을 곱해서 합산하면 주사위 값의 평균과 같습니다. 즉 확률의 기댓값은 사건의 값의 평균을 구하는 것과 같습니다.
MDP에서 보상함수(R)를 계산하는 것 또한 주사위의 기댓값을 계산하는 것과 동일한 개념입니다. 주사위의 숫자는 보상과 같고, 그 숫자가 나올 확률은 정책과 같습니다.
감사합니다.
답변 1