그림에 대해서 잘 이해가 안됩니다.

Question

9분 52초의 Policy Improvement table에서는 blue statement를 통과해서 가는데 optimal이라고 화살표가 나아 있는데, 14분 6초에서는 blue statement를 거치지 않고 돌아서 가는 것이 optimal이라고 화살표가 표시되어 있습니다. 그냥 theta의 값을 두고 iteration을 한 차이 인걸까요?

YoungJea Oh · Answer

네, 맞습니다. 그 차이는 결국 Policy Evaluation → Policy Improvement를 반복하면서 수렴 과정에 있는 중간 단계 차이입니다. 9분 52초: 아직 θ(수렴 오차 허용치) 기준으로 충분히 반복되지 않은 상태라, greedy update를 했을 때 “blue statement를 거쳐가는 경로”가 더 좋아 보이는 중간 정책이 나옵니다. 이때는 아직 최적 정책이 아닙니다. 14분 6초: 더 많은 iteration을 거쳐 value function이 안정되면서, 실제로는 “blue statement를 돌아가는 경로”가 더 높은 value를 가지는 것이 드러납니다. 그래서 최종 optimal policy에서는 돌아가는 것이 선택됩니다. 즉, θ의 크기와 반복 횟수 때문에 중간 단계에서는 경로가 달라 보일 수 있지만, iteration을 충분히 돌리면 결국 동일한 optimal policy에 수렴하게 됩니다.