강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

능함가님의 프로필 이미지
능함가

작성한 질문수

강화학습 입문에서 Deep Q-learning/Policy Gradient까지

결정론적 vs. 확률론적 정책 (Deterministic vs. Stochastic Policy)

확률론적 policy 관련

해결된 질문

작성

·

14

0

안녕하세요.

 

전이확률과 stochastic policy 가 헷갈려서 그런데,

stochastic policy 에서 특정 action을 할 확률이 전이확률이 되는 건가요?

아니면, 두개가 구별된 개념인 것인가요?

 

감사합니다.

답변 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
지식공유자

예, 구분된 개념입니다. 다음의 예를 참조하시면 이해가 되실 것입니다.

1. Stochastic Policy (확률적 정책) - 에이전트가 상태 s에서 행동 a를 선택할 확률 분포.

즉, 에이전트가 어떤 상태에 있을 때, 여러 행동 중 어떤 것을 택할지 확률적으로 결정하는 규칙.

예: 상태가 s1일 때 행동 a1을 선택할 확률 = 0.7 행동 a2를 선택할 확률 = 0.3

2. Transition Probability (전이확률, 환경 모델) - 환경이 상태 s에서 행동 a를 취했을 때, 다음 상태가 s′가 될 확률

즉, 에이전트의 행동 이후 환경이 어떻게 변할지를 설명하는 확률.

예: 상태가 s1이고 에이전트가 a1을 했을 때 s2로 갈 확률 = 0.8 s3로 갈 확률 = 0.2

우리네 인생과 같다고 보면 됩니다. 기분에 따라 버스를 탈지 지하철을 탈지 그때 그때 다르게 행동을 선택하는데(stochastic policy) 시간 맞춰 도착할 확률 (전이확률)이 교통 상황에 따라 매번 바뀌니까요.

능함가님의 프로필 이미지
능함가

작성한 질문수

질문하기