• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

보상값과 보상함수

22.10.09 09:28 작성 조회수 417

0

MRP에서 R을 보상 함수라고 책에 써 두셨는데, 여기서 보상함수를 구하는 방법은 확률의 기대값으로 계산한다고 하셨습니다.

확률의 기대값을 구하는 방법은 각각의 확률에 해당 상태의 기대값(주어지는 값, 임의의 값)을 곱한 것을 다 더해주면 된다고 하셨습니다.

그런데 MDP 설명하는 강의에서 계속 보상값이라는 표현을 쓰시는데 이 표현이 정확한 것인지 문의 합니다.

답변 1

답변을 작성해보세요.

0

안녕하세요 ljp4122님.

수강해주셔서 감사합니다.

장기 출장으로 인해 답변이 늦어진 점 사과드립니다.

보상함수 = 기댓값 = 보상값 이라고 이해하시면 됩니다. 모두 에이전트가 정책에 따라서 특정 행동을 했을 때 받는 보상에 대한 기댓값입니다. 모두 하나의 타임스텝에 대해서 값이 계산됩니다. 이와 반대로 전체 타임스텝(에피소드)에 대한 보상에 대한 기댓값은 반환값(G)이 됩니다. MDP의 목적은 반환값을 최대로하는 정책을 찾는 것입니다.

감사합니다.