확률론적 policy 관련

Question

안녕하세요. 전이확률과 stochastic policy 가 헷갈려서 그런데, stochastic policy 에서 특정 action을 할 확률이 전이확률이 되는 건가요? 아니면, 두개가 구별된 개념인 것인가요? 감사합니다.

YoungJea Oh · Answer

예, 구분된 개념입니다. 다음의 예를 참조하시면 이해가 되실 것입니다. 1. Stochastic Policy (확률적 정책) - 에이전트가 상태 s에서 행동 a를 선택할 확률 분포. 즉, 에이전트가 어떤 상태에 있을 때, 여러 행동 중 어떤 것을 택할지 확률적으로 결정하는 규칙. 예: 상태가 s1일 때 행동 a1을 선택할 확률 = 0.7 행동 a2를 선택할 확률 = 0.3 2. Transition Probability (전이확률, 환경 모델) - 환경이 상태 s에서 행동 a를 취했을 때, 다음 상태가 s′가 될 확률 즉, 에이전트의 행동 이후 환경이 어떻게 변할지를 설명하는 확률. 예: 상태가 s1이고 에이전트가 a1을 했을 때 s2로 갈 확률 = 0.8 s3로 갈 확률 = 0.2 우리네 인생과 같다고 보면 됩니다. 기분에 따라 버스를 탈지 지하철을 탈지 그때 그때 다르게 행동을 선택하는데(stochastic policy) 시간 맞춰 도착할 확률 (전이확률)이 교통 상황에 따라 매번 바뀌니까요.