보상값과 보상함수

Question

MRP에서 R을 보상 함수라고 책에 써 두셨는데, 여기서 보상함수를 구하는 방법은 확률의 기대값으로 계산한다고 하셨습니다.

확률의 기대값을 구하는 방법은 각각의 확률에 해당 상태의 기대값(주어지는 값, 임의의 값)을 곱한 것을 다 더해주면 된다고 하셨습니다.

그런데 MDP 설명하는 강의에서 계속 보상값이라는 표현을 쓰시는데 이 표현이 정확한 것인지 문의 합니다.

Answer

안녕하세요 ljp4122님.수강해주셔서 감사합니다.장기 출장으로 인해 답변이 늦어진 점 사과드립니다.보상함수 = 기댓값 = 보상값 이라고 이해하시면 됩니다. 모두 에이전트가 정책에 따라서 특정 행동을 했을 때 받는 보상에 대한 기댓값입니다. 모두 하나의 타임스텝에 대해서 값이 계산됩니다. 이와 반대로 전체 타임스텝(에피소드)에 대한 보상에 대한 기댓값은 반환값(G)이 됩니다. MDP의 목적은 반환값을 최대로하는 정책을 찾는 것입니다.감사합니다.

ljp4122

보상값과 보상함수

이 글과 비슷한 Q&A

딥러닝 코드에 Batch Normalization 적용해보기 질문입니다

딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 질문입니다

Binary Classfication 딥러닝 적용해보기 질문입니다

파이토치 device (gpu / cpu) 관련 질문드립니다.