MDP 질문

Question

MDP에서 상태가 변한다는 것은 원래 가지고 있던 상태 전이 매트릭스와 정책의 영향을 동시에 받는다는 것과 같다. (이해완료) 따라서 행동에 따른 정책과 상태 전이 확률의 기댓값(평균)을 구함으로서 정책을 고려한 상태 전이 매트릭스를 구할 수 있다(이해 못함) -> 두번째 문장에서 기댓값을 구해서 상태전이 매트릭스를 구할 수 있다는 부분이 이해가 잘 안됩니다.

멀티코어 · Answer

안녕하세요 ljp4122님. 상태 전이 매트릭스는 환경(Environment)에서 상태(State)가 변할 수 있는 조건부 확률을 매트릭스 형태로 나타낸 것입니다. MDP에서는 정책이라는 새로운 확률이 추가되었기 때문에 MRP와는 달리 정책을 고려한 새로운 상태전이 매트릭스를 만들어야 합니다. 즉, 하나의 행동을 할 때 S에서 S'로 상태가 변할 확률이 P뿐만이 아니라 𝝿까지 고려해야 합니다. 이 문제를 해결하기 위해 위 식과 같이 행동에 따른 정책(𝝿)과 상태 전이 확률(P)의 기댓값(평균)을 구함으로써 정책을 고려한 상태 전이 매트릭스를 구할 수 있습니다. 여기에서 기대값은 평균의 개념을 가지고 있습니다. 감사합니다.