inflearn logo
강의

Course

Instructor

From Introduction to Reinforcement Learning to Deep Q-learning/Policy Gradient

Policy Iteration

그림에 대해서 잘 이해가 안됩니다.

55

hyounghe07248680

8 asked

0

 

9분 52초의 Policy Improvement table에서는 blue statement를 통과해서 가는데 optimal이라고 화살표가 나아 있는데, 14분 6초에서는 blue statement를 거치지 않고 돌아서 가는 것이 optimal이라고 화살표가 표시되어 있습니다.

그냥 theta의 값을 두고 iteration을 한 차이 인걸까요?

python 딥러닝 강화학습 pytorch

Answer 1

0

YoungJea Oh

네, 맞습니다. 그 차이는 결국 Policy Evaluation → Policy Improvement를 반복하면서 수렴 과정에 있는 중간 단계 차이입니다.

9분 52초: 아직 θ(수렴 오차 허용치) 기준으로 충분히 반복되지 않은 상태라, greedy update를 했을 때 “blue statement를 거쳐가는 경로”가 더 좋아 보이는 중간 정책이 나옵니다. 이때는 아직 최적 정책이 아닙니다.

14분 6초: 더 많은 iteration을 거쳐 value function이 안정되면서, 실제로는 “blue statement를 돌아가는 경로”가 더 높은 value를 가지는 것이 드러납니다. 그래서 최종 optimal policy에서는 돌아가는 것이 선택됩니다.

즉, θ의 크기와 반복 횟수 때문에 중간 단계에서는 경로가 달라 보일 수 있지만, iteration을 충분히 돌리면 결국 동일한 optimal policy에 수렴하게 됩니다.

소리가 겹쳐서 들려요

0

20

2

전 강의와 전혀 이어지지가 않음

0

30

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

38

3

강화학습저장 및 로드

0

57

1

16:07슬라이드에소 헷갈리는 부분이 있습니다

0

65

2

미분 결과가 왜 저렇게 나오는지 궁금합니다.

0

73

1

Taxi-v3에 대한 두 가지질문

0

51

1

stochastic state 관련

0

69

2

reward, value functnio

0

67

2

전이확률 / stochastic env.

0

65

1

확률론적 policy 관련

0

47

1

model based

0

56

1

time sequential data 관련

0

57

2

Deep Q-Learning algorithm에 대하여

0

85

2

Cartpole 환경 이해 및 시각화 관련 문의

0

111

3

실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax

0

108

1

실습에러 TImelimit

0

151

2

실습

0

266

6

강의자료

0

131

2

강의 36강에서의 질문

0

179

1

Pytorch 설치 GPU 버전으로 다운해도 되나요?

0

354

2

정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제

0

219

1

반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.

0

341

2

강의코드 110_basic_operations_for ... 코드 실행 시 문제

1

311

1