-
카테고리
-
세부 분야
딥러닝 · 머신러닝
-
해결 여부
미해결
보상값과 보상함수
22.10.09 09:28 작성 조회수 417
0
MRP에서 R을 보상 함수라고 책에 써 두셨는데, 여기서 보상함수를 구하는 방법은 확률의 기대값으로 계산한다고 하셨습니다.
확률의 기대값을 구하는 방법은 각각의 확률에 해당 상태의 기대값(주어지는 값, 임의의 값)을 곱한 것을 다 더해주면 된다고 하셨습니다.
그런데 MDP 설명하는 강의에서 계속 보상값이라는 표현을 쓰시는데 이 표현이 정확한 것인지 문의 합니다.
답변을 작성해보세요.
0
멀티코어
지식공유자2022.10.19
안녕하세요 ljp4122님.
수강해주셔서 감사합니다.
장기 출장으로 인해 답변이 늦어진 점 사과드립니다.
보상함수 = 기댓값 = 보상값 이라고 이해하시면 됩니다. 모두 에이전트가 정책에 따라서 특정 행동을 했을 때 받는 보상에 대한 기댓값입니다. 모두 하나의 타임스텝에 대해서 값이 계산됩니다. 이와 반대로 전체 타임스텝(에피소드)에 대한 보상에 대한 기댓값은 반환값(G)이 됩니다. MDP의 목적은 반환값을 최대로하는 정책을 찾는 것입니다.
감사합니다.
답변 1