인프런 커뮤니티 질문&답변
보상값과 보상함수
작성
·
811
답변 1
0
멀티코어
지식공유자
안녕하세요 ljp4122님.
수강해주셔서 감사합니다.
장기 출장으로 인해 답변이 늦어진 점 사과드립니다.
보상함수 = 기댓값 = 보상값 이라고 이해하시면 됩니다. 모두 에이전트가 정책에 따라서 특정 행동을 했을 때 받는 보상에 대한 기댓값입니다. 모두 하나의 타임스텝에 대해서 값이 계산됩니다. 이와 반대로 전체 타임스텝(에피소드)에 대한 보상에 대한 기댓값은 반환값(G)이 됩니다. MDP의 목적은 반환값을 최대로하는 정책을 찾는 것입니다.
감사합니다.





