작성
·
230
답변 1
0
안녕하세요 ljp4122님.
상태 전이 매트릭스는 환경(Environment)에서 상태(State)가 변할 수 있는 조건부 확률을 매트릭스 형태로 나타낸 것입니다. MDP에서는 정책이라는 새로운 확률이 추가되었기 때문에 MRP와는 달리 정책을 고려한 새로운 상태전이 매트릭스를 만들어야 합니다. 즉, 하나의 행동을 할 때 S에서 S'로 상태가 변할 확률이 P뿐만이 아니라 𝝿까지 고려해야 합니다.
이 문제를 해결하기 위해 위 식과 같이 행동에 따른 정책(𝝿)과 상태 전이 확률(P)의 기댓값(평균)을 구함으로써 정책을 고려한 상태 전이 매트릭스를 구할 수 있습니다. 여기에서 기대값은 평균의 개념을 가지고 있습니다.
감사합니다.