inflearn logo
강의

講義

知識共有

強化学習入門からDeep Q-learning/Policy Gradientまで

実習 - 凍った湖 (Frozen Lake) - 方策反復アルゴリズムの実装

실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax

解決済みの質問

108

okputto

投稿した質問数 8

0

안녕하세요

아래와 같이 new_action_values 의 max 값이 복수개 발견될경우 맨처음 발견된 index 만 표시 되는게 맞는건가요?

예를 들어 액션값이 좌측이거나 위 .. 이렇게 두개의 값은 갖을 수 없는건가요?

 

V = np.zeros(num_states)
pi = np.ones([num_states, num_actions]) * 0.25


new_action_values = np.array([0.1, 0.5, 0.5, 0.5])
new_action = np.argmax(new_action_values)
print(new_action)
print(np.eye(num_actions))
print(np.eye(num_actions)[new_action])

python 딥러닝 강화학습 pytorch

回答 1

0

YoungJea Oh

np.argmax는 여러 개의 최대값이 있어도 가장 먼저 등장한 인덱스만 반환합니다. 하지만 2, 3, 4 번째 0.5 중 아무 것의 인덱스를 반환해도 상관없습니다. 중요한 것은 최대값의 index 를 반환하면 결국에는 테이블이 수렴하게 된다는 것입니다. 위의 경우에 [0.1, 0.5, 0.5, 0.5] 인 경우 그 state에서의 최적 정책은 3개가 될 수 있습니다. 왜냐하면 어떤 state에서의 최적 정책은 여러개가 있을 수 있기 때문입니다. 하지만 Value Iteration 이나 Policy Iteration 알고리즘에서는 artmax 로 세개의 같은 값(0.5) 중 맨 처음 index 만 반환해도 가치함수 테이블이 수렴하도록 되어 있습니다. 그래서 argmax 에 문제가 없습니다. 좋은 질문 감사합니다.

소리가 겹쳐서 들려요

0

20

2

전 강의와 전혀 이어지지가 않음

0

30

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

38

3

강화학습저장 및 로드

0

57

1

16:07슬라이드에소 헷갈리는 부분이 있습니다

0

65

2

미분 결과가 왜 저렇게 나오는지 궁금합니다.

0

73

1

Taxi-v3에 대한 두 가지질문

0

51

1

그림에 대해서 잘 이해가 안됩니다.

0

55

1

stochastic state 관련

0

69

2

reward, value functnio

0

67

2

전이확률 / stochastic env.

0

65

1

확률론적 policy 관련

0

47

1

model based

0

56

1

time sequential data 관련

0

57

2

Deep Q-Learning algorithm에 대하여

0

85

2

Cartpole 환경 이해 및 시각화 관련 문의

0

111

3

실습에러 TImelimit

0

151

2

실습

0

266

6

강의자료

0

131

2

강의 36강에서의 질문

0

179

1

Pytorch 설치 GPU 버전으로 다운해도 되나요?

0

354

2

정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제

0

219

1

반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.

0

341

2

강의코드 110_basic_operations_for ... 코드 실행 시 문제

1

311

1