MDP질문

Question

교재에서 v(s)와 vㅠ(s)가 같은 값이라고 하셨는데, 그러면 최적 상태 가치 함수는 어떻게 나오는 건가요? 어차피 v(s)는 vㅠ(s)와 같은 값일 텐테 어떻게 값이 변화되는 건지 모르겠습니다.

멀티코어 · Answer

안녕하세요 ljp4122님. v(s)와 v𝝿(s)는 같은 의미를 가지고 있는 값입니다. MRP에서는 정책이 없기 때문에 v(s)를 사용하구요 MDP에서는 정책의 개념이 추가되었기 때문에 정책을 고려한 상태가치함수 v𝝿(s)를 사용하고 있습니다. 모두 해당 상태가 얼마나 가치있는 지를 평가하는 것에서는 동일합니다. v*(s)는 최적 상태 가치 함수입니다. 여러 가지 정책을 따르는 상태 가치 함수가 있을 때, 가치를 최대로 하는 정책을 따르는 상태 가치 함수를 말합니다. q*(s,a)는 다양한 정책을 따르는 행동 가치 함수 중에서 가치를 최대로 하는 정책을 따르는 행동 가치 함수를 말합니다. MDP에서 최적 행동 가치 함수를 안다는 것은 가장 효율적인 행동을 선택할 수 있는 정책을 안다는 것과 같습니다. 따라서 최적 행동 가치 함수를 찾아낼 수 있다면 MDP 문제를 해결할 수 있다. 이를 계산하는 다양한 알고리즘을 강의에서 확인하실 수 있습니다. 감사합니다.