그림에 대해서 잘 이해가 안됩니다.
55
8 asked
9분 52초의 Policy Improvement table에서는 blue statement를 통과해서 가는데 optimal이라고 화살표가 나아 있는데, 14분 6초에서는 blue statement를 거치지 않고 돌아서 가는 것이 optimal이라고 화살표가 표시되어 있습니다.
그냥 theta의 값을 두고 iteration을 한 차이 인걸까요?
Answer 1
0
네, 맞습니다. 그 차이는 결국 Policy Evaluation → Policy Improvement를 반복하면서 수렴 과정에 있는 중간 단계 차이입니다.
9분 52초: 아직 θ(수렴 오차 허용치) 기준으로 충분히 반복되지 않은 상태라, greedy update를 했을 때 “blue statement를 거쳐가는 경로”가 더 좋아 보이는 중간 정책이 나옵니다. 이때는 아직 최적 정책이 아닙니다.
14분 6초: 더 많은 iteration을 거쳐 value function이 안정되면서, 실제로는 “blue statement를 돌아가는 경로”가 더 높은 value를 가지는 것이 드러납니다. 그래서 최종 optimal policy에서는 돌아가는 것이 선택됩니다.
즉, θ의 크기와 반복 횟수 때문에 중간 단계에서는 경로가 달라 보일 수 있지만, iteration을 충분히 돌리면 결국 동일한 optimal policy에 수렴하게 됩니다.
소리가 겹쳐서 들려요
0
20
2
전 강의와 전혀 이어지지가 않음
0
30
1
pytorch local 설치 옵션에 conda 가 없습니다.
0
38
3
강화학습저장 및 로드
0
57
1
16:07슬라이드에소 헷갈리는 부분이 있습니다
0
65
2
미분 결과가 왜 저렇게 나오는지 궁금합니다.
0
73
1
Taxi-v3에 대한 두 가지질문
0
51
1
stochastic state 관련
0
69
2
reward, value functnio
0
67
2
전이확률 / stochastic env.
0
65
1
확률론적 policy 관련
0
47
1
model based
0
56
1
time sequential data 관련
0
57
2
Deep Q-Learning algorithm에 대하여
0
85
2
Cartpole 환경 이해 및 시각화 관련 문의
0
111
3
실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax
0
108
1
실습에러 TImelimit
0
151
2
실습
0
266
6
강의자료
0
131
2
강의 36강에서의 질문
0
179
1
Pytorch 설치 GPU 버전으로 다운해도 되나요?
0
354
2
정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제
0
219
1
반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.
0
341
2
강의코드 110_basic_operations_for ... 코드 실행 시 문제
1
311
1

