그림에 대해서 잘 이해가 안됩니다.

네, 맞습니다. 그 차이는 결국 Policy Evaluation → Policy Improvement를 반복하면서 수렴 과정에 있는 중간 단계 차이입니다.

9분 52초: 아직 θ(수렴 오차 허용치) 기준으로 충분히 반복되지 않은 상태라, greedy update를 했을 때 “blue statement를 거쳐가는 경로”가 더 좋아 보이는 중간 정책이 나옵니다. 이때는 아직 최적 정책이 아닙니다.

14분 6초: 더 많은 iteration을 거쳐 value function이 안정되면서, 실제로는 “blue statement를 돌아가는 경로”가 더 높은 value를 가지는 것이 드러납니다. 그래서 최종 optimal policy에서는 돌아가는 것이 선택됩니다.

즉, θ의 크기와 반복 횟수 때문에 중간 단계에서는 경로가 달라 보일 수 있지만, iteration을 충분히 돌리면 결국 동일한 optimal policy에 수렴하게 됩니다.

인프런 커뮤니티 질문&답변