해결된 질문
작성
·
14
답변 1
0
예, 구분된 개념입니다. 다음의 예를 참조하시면 이해가 되실 것입니다.
1. Stochastic Policy (확률적 정책) - 에이전트가 상태 s에서 행동 a를 선택할 확률 분포.
즉, 에이전트가 어떤 상태에 있을 때, 여러 행동 중 어떤 것을 택할지 확률적으로 결정하는 규칙.
예: 상태가 s1일 때 행동 a1을 선택할 확률 = 0.7 행동 a2를 선택할 확률 = 0.3
2. Transition Probability (전이확률, 환경 모델) - 환경이 상태 s에서 행동 a를 취했을 때, 다음 상태가 s′가 될 확률
즉, 에이전트의 행동 이후 환경이 어떻게 변할지를 설명하는 확률.
예: 상태가 s1이고 에이전트가 a1을 했을 때 s2로 갈 확률 = 0.8 s3로 갈 확률 = 0.2
우리네 인생과 같다고 보면 됩니다. 기분에 따라 버스를 탈지 지하철을 탈지 그때 그때 다르게 행동을 선택하는데(stochastic policy) 시간 맞춰 도착할 확률 (전이확률)이 교통 상황에 따라 매번 바뀌니까요.