강의

멘토링

커뮤니티

Inflearn Community Q&A

etank34721's profile image
etank34721

asked

From Introduction to Reinforcement Learning to Deep Q-learning/Policy Gradient

Deterministic vs. Stochastic Policy

확률론적 policy 관련

Resolved

Written on

·

35

0

안녕하세요.

 

전이확률과 stochastic policy 가 헷갈려서 그런데,

stochastic policy 에서 특정 action을 할 확률이 전이확률이 되는 건가요?

아니면, 두개가 구별된 개념인 것인가요?

 

감사합니다.

python딥러닝강화학습pytorch

Answer 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
Instructor

예, 구분된 개념입니다. 다음의 예를 참조하시면 이해가 되실 것입니다.

1. Stochastic Policy (확률적 정책) - 에이전트가 상태 s에서 행동 a를 선택할 확률 분포.

즉, 에이전트가 어떤 상태에 있을 때, 여러 행동 중 어떤 것을 택할지 확률적으로 결정하는 규칙.

예: 상태가 s1일 때 행동 a1을 선택할 확률 = 0.7 행동 a2를 선택할 확률 = 0.3

2. Transition Probability (전이확률, 환경 모델) - 환경이 상태 s에서 행동 a를 취했을 때, 다음 상태가 s′가 될 확률

즉, 에이전트의 행동 이후 환경이 어떻게 변할지를 설명하는 확률.

예: 상태가 s1이고 에이전트가 a1을 했을 때 s2로 갈 확률 = 0.8 s3로 갈 확률 = 0.2

우리네 인생과 같다고 보면 됩니다. 기분에 따라 버스를 탈지 지하철을 탈지 그때 그때 다르게 행동을 선택하는데(stochastic policy) 시간 맞춰 도착할 확률 (전이확률)이 교통 상황에 따라 매번 바뀌니까요.

etank34721's profile image
etank34721

asked

Ask a question