강의

멘토링

커뮤니티

Inflearn コミュニティ Q&A

etank34721 のプロフィール画像
etank34721

投稿した質問数

強化学習入門からDeep Q-learning/Policy Gradientまで

決定論的対。確率論的政策 (Deterministic vs. Stochastic Policy)

확률론적 policy 관련

解決済みの質問

作成

·

35

0

안녕하세요.

 

전이확률과 stochastic policy 가 헷갈려서 그런데,

stochastic policy 에서 특정 action을 할 확률이 전이확률이 되는 건가요?

아니면, 두개가 구별된 개념인 것인가요?

 

감사합니다.

python딥러닝강화학습pytorch

回答 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
インストラクター

예, 구분된 개념입니다. 다음의 예를 참조하시면 이해가 되실 것입니다.

1. Stochastic Policy (확률적 정책) - 에이전트가 상태 s에서 행동 a를 선택할 확률 분포.

즉, 에이전트가 어떤 상태에 있을 때, 여러 행동 중 어떤 것을 택할지 확률적으로 결정하는 규칙.

예: 상태가 s1일 때 행동 a1을 선택할 확률 = 0.7 행동 a2를 선택할 확률 = 0.3

2. Transition Probability (전이확률, 환경 모델) - 환경이 상태 s에서 행동 a를 취했을 때, 다음 상태가 s′가 될 확률

즉, 에이전트의 행동 이후 환경이 어떻게 변할지를 설명하는 확률.

예: 상태가 s1이고 에이전트가 a1을 했을 때 s2로 갈 확률 = 0.8 s3로 갈 확률 = 0.2

우리네 인생과 같다고 보면 됩니다. 기분에 따라 버스를 탈지 지하철을 탈지 그때 그때 다르게 행동을 선택하는데(stochastic policy) 시간 맞춰 도착할 확률 (전이확률)이 교통 상황에 따라 매번 바뀌니까요.

etank34721 のプロフィール画像
etank34721

投稿した質問数

質問する