inflearn logo
강의

講義

知識共有

強化学習入門からDeep Q-learning/Policy Gradientまで

강의 36강에서의 질문

解決済みの質問

179

khk1722164410

投稿した質問数 4

0

안녕하세요! 이번에 금융권 핀테크 기업으로 이직하면서 강화학습을 직무에 활용할 수 있을까하여 공부하고 있는 사람입니다.

 

import gymnasium as gym
import numpy as np
import pprint

# SFFF       (S: 시작점, 안전)
# FHFH       (F: 얼어있는 표면, 안전)
# FFFH       (H: 구멍, 추락)
# HFFG       (G: 목표, 프리스비 위치)

# LEFT = 0
# DOWN = 1
# RIGHT = 2
# UP = 3

map = "4x4"
 
SLIPPERY = False # 결정론적 환경
#SLIPPERY = True  # 확률적 환경

# FrozenLake-v1 환경을 생성합니다.
# desc: None이면 기본 맵을 사용합니다.
# map_name: 사용할 맵의 이름을 지정합니다. 
# is_slippery: True이면 미끄러운 표면(확률적 환경)을 사용하고, False이면 결정론적 환경을 사용합니다.
env = gym.make('FrozenLake-v1', desc=None, map_name=map, is_slippery=SLIPPERY)

GAMMA = 1.0  # 감가율 (discount factor), 미래 보상의 현재 가치
THETA = 1e-5   # 정책 평가의 종료 조건, 변화가 이 값보다 작으면 평가 종료
num_states = env.observation_space.n   # 환경의 상태(state) 개수
num_actions = env.action_space.n    # 환경에서 가능한 행동(action) 개수
transitions = env.P   # 상태-행동 전이 확률 (state-action transition probabilities)s)

강의로는 36강, 자료로는 015_DP_frozenlake_policy_evaluation.py

상에서 질문이 있습니다.

 

여기서 THETA가 1E-5인데, 이는 정책 평가의 종료 조건이라고 되어있었습니다. 이 때, 모든 그리드에서의 변화량 중 단 하나의 값이라도 THETA보다 작아지면 평가가 종료되는 것인지, 모든 그리드의 변화량이 THETA보다 작아지면 평가가 종료되는 것인지 궁금합니다.

 

 

python 딥러닝 강화학습 pytorch

回答 1

1

YoungJea Oh

정책 평가에서 THETA는 모든 상태에서의 가치 함수가 충분히 수렴했는지를 결정하는 종료 조건입니다. 즉, 모든 상태에서의 가치 변화량 중 가장 큰 값THETA보다 작아질 때 평가가 종료된다는 의미입니다.

for s in range(num_states):

...............................

delta = max(delta, np.abs(old_value - V[s]))

 

위에서 delta는 모든 state 를 loop 돌았을 때 이전 state value 와 새로운 state value 간의 가장 큰 차이를 저장한 변수이므로 단 하나의 상태에서만 변화량이 THETA보다 작아진다고 종료되는 것이 아니라, 모든 상태의 변화량이 THETA보다 작아져야 평가가 종료된다는 의미입니다. 이는 가치 함수가 충분히 수렴했음을 보장하는 방법입니다.
좋은 질문 감사합니다.

0

khk1722164410

정확하게 이해하였습니다.

모든 상태에서의 가치 함수의 변화량이 theta보다 작아야만 종료가 된다, 라고 기억해두겠습니다.

이번에 딥러닝과 머신러닝, 시계열 데이터까지 한 달 남짓한 시간 동안에 공부를 할 생각인데, 강의 정말 잘 활용하고 있습니다.

 

중간 중간 스스로 해결하기 어려운 질문들을 드리도록 하겠습니다. 질 좋은 강의 감사합니다.

소리가 겹쳐서 들려요

0

20

2

전 강의와 전혀 이어지지가 않음

0

30

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

38

3

강화학습저장 및 로드

0

57

1

16:07슬라이드에소 헷갈리는 부분이 있습니다

0

65

2

미분 결과가 왜 저렇게 나오는지 궁금합니다.

0

73

1

Taxi-v3에 대한 두 가지질문

0

51

1

그림에 대해서 잘 이해가 안됩니다.

0

55

1

stochastic state 관련

0

69

2

reward, value functnio

0

67

2

전이확률 / stochastic env.

0

65

1

확률론적 policy 관련

0

47

1

model based

0

56

1

time sequential data 관련

0

57

2

Deep Q-Learning algorithm에 대하여

0

85

2

Cartpole 환경 이해 및 시각화 관련 문의

0

111

3

실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax

0

108

1

실습에러 TImelimit

0

151

2

실습

0

266

6

강의자료

0

131

2

Pytorch 설치 GPU 버전으로 다운해도 되나요?

0

354

2

정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제

0

219

1

반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.

0

341

2

강의코드 110_basic_operations_for ... 코드 실행 시 문제

1

311

1