강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

최규형님의 프로필 이미지
최규형

작성한 질문수

강화학습 입문에서 Deep Q-learning/Policy Gradient까지

정책 반복 (Policy Iteration)

그림에 대해서 잘 이해가 안됩니다.

작성

·

13

0

 

9분 52초의 Policy Improvement table에서는 blue statement를 통과해서 가는데 optimal이라고 화살표가 나아 있는데, 14분 6초에서는 blue statement를 거치지 않고 돌아서 가는 것이 optimal이라고 화살표가 표시되어 있습니다.

그냥 theta의 값을 두고 iteration을 한 차이 인걸까요?

답변 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
지식공유자

네, 맞습니다. 그 차이는 결국 Policy Evaluation → Policy Improvement를 반복하면서 수렴 과정에 있는 중간 단계 차이입니다.

9분 52초: 아직 θ(수렴 오차 허용치) 기준으로 충분히 반복되지 않은 상태라, greedy update를 했을 때 “blue statement를 거쳐가는 경로”가 더 좋아 보이는 중간 정책이 나옵니다. 이때는 아직 최적 정책이 아닙니다.

14분 6초: 더 많은 iteration을 거쳐 value function이 안정되면서, 실제로는 “blue statement를 돌아가는 경로”가 더 높은 value를 가지는 것이 드러납니다. 그래서 최종 optimal policy에서는 돌아가는 것이 선택됩니다.

즉, θ의 크기와 반복 횟수 때문에 중간 단계에서는 경로가 달라 보일 수 있지만, iteration을 충분히 돌리면 결국 동일한 optimal policy에 수렴하게 됩니다.

최규형님의 프로필 이미지
최규형

작성한 질문수

질문하기