inflearn logo
강의

講義

知識共有

強化学習入門からDeep Q-learning/Policy Gradientまで

決定論的 vs. 確率論的方策 (Deterministic vs. Stochastic Policy)

확률론적 policy 관련

解決済みの質問

47

etank34721

投稿した質問数 18

0

안녕하세요.

 

전이확률과 stochastic policy 가 헷갈려서 그런데,

stochastic policy 에서 특정 action을 할 확률이 전이확률이 되는 건가요?

아니면, 두개가 구별된 개념인 것인가요?

 

감사합니다.

python 딥러닝 강화학습 pytorch

回答 1

0

YoungJea Oh

예, 구분된 개념입니다. 다음의 예를 참조하시면 이해가 되실 것입니다.

1. Stochastic Policy (확률적 정책) - 에이전트가 상태 s에서 행동 a를 선택할 확률 분포.

즉, 에이전트가 어떤 상태에 있을 때, 여러 행동 중 어떤 것을 택할지 확률적으로 결정하는 규칙.

예: 상태가 s1일 때 행동 a1을 선택할 확률 = 0.7 행동 a2를 선택할 확률 = 0.3

2. Transition Probability (전이확률, 환경 모델) - 환경이 상태 s에서 행동 a를 취했을 때, 다음 상태가 s′가 될 확률

즉, 에이전트의 행동 이후 환경이 어떻게 변할지를 설명하는 확률.

예: 상태가 s1이고 에이전트가 a1을 했을 때 s2로 갈 확률 = 0.8 s3로 갈 확률 = 0.2

우리네 인생과 같다고 보면 됩니다. 기분에 따라 버스를 탈지 지하철을 탈지 그때 그때 다르게 행동을 선택하는데(stochastic policy) 시간 맞춰 도착할 확률 (전이확률)이 교통 상황에 따라 매번 바뀌니까요.

소리가 겹쳐서 들려요

0

19

2

전 강의와 전혀 이어지지가 않음

0

30

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

38

3

강화학습저장 및 로드

0

57

1

16:07슬라이드에소 헷갈리는 부분이 있습니다

0

65

2

미분 결과가 왜 저렇게 나오는지 궁금합니다.

0

73

1

Taxi-v3에 대한 두 가지질문

0

51

1

그림에 대해서 잘 이해가 안됩니다.

0

55

1

stochastic state 관련

0

69

2

reward, value functnio

0

67

2

전이확률 / stochastic env.

0

65

1

model based

0

56

1

time sequential data 관련

0

57

2

Deep Q-Learning algorithm에 대하여

0

85

2

Cartpole 환경 이해 및 시각화 관련 문의

0

111

3

실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax

0

108

1

실습에러 TImelimit

0

151

2

실습

0

266

6

강의자료

0

131

2

강의 36강에서의 질문

0

179

1

Pytorch 설치 GPU 버전으로 다운해도 되나요?

0

354

2

정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제

0

219

1

반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.

0

341

2

강의코드 110_basic_operations_for ... 코드 실행 시 문제

1

311

1