강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

ljp4122님의 프로필 이미지
ljp4122

작성한 질문수

프로그래머를 위한 강화학습(저자 직강)

마르코프 결정과정(MDP)

보상값과 보상함수

작성

·

811

0

MRP에서 R을 보상 함수라고 책에 써 두셨는데, 여기서 보상함수를 구하는 방법은 확률의 기대값으로 계산한다고 하셨습니다.

확률의 기대값을 구하는 방법은 각각의 확률에 해당 상태의 기대값(주어지는 값, 임의의 값)을 곱한 것을 다 더해주면 된다고 하셨습니다.

그런데 MDP 설명하는 강의에서 계속 보상값이라는 표현을 쓰시는데 이 표현이 정확한 것인지 문의 합니다.

답변 1

0

멀티코어님의 프로필 이미지
멀티코어
지식공유자

안녕하세요 ljp4122님.

수강해주셔서 감사합니다.

장기 출장으로 인해 답변이 늦어진 점 사과드립니다.

보상함수 = 기댓값 = 보상값 이라고 이해하시면 됩니다. 모두 에이전트가 정책에 따라서 특정 행동을 했을 때 받는 보상에 대한 기댓값입니다. 모두 하나의 타임스텝에 대해서 값이 계산됩니다. 이와 반대로 전체 타임스텝(에피소드)에 대한 보상에 대한 기댓값은 반환값(G)이 됩니다. MDP의 목적은 반환값을 최대로하는 정책을 찾는 것입니다.

감사합니다.

ljp4122님의 프로필 이미지
ljp4122

작성한 질문수

질문하기