확률론적 policy 관련
안녕하세요.
전이확률과 stochastic policy 가 헷갈려서 그런데,
stochastic policy 에서 특정 action을 할 확률이 전이확률이 되는 건가요?
아니면, 두개가 구별된 개념인 것인가요?
감사합니다.
回答 1
0
예, 구분된 개념입니다. 다음의 예를 참조하시면 이해가 되실 것입니다.
1. Stochastic Policy (확률적 정책) - 에이전트가 상태 s에서 행동 a를 선택할 확률 분포.
즉, 에이전트가 어떤 상태에 있을 때, 여러 행동 중 어떤 것을 택할지 확률적으로 결정하는 규칙.
예: 상태가 s1일 때 행동 a1을 선택할 확률 = 0.7 행동 a2를 선택할 확률 = 0.3
2. Transition Probability (전이확률, 환경 모델) - 환경이 상태 s에서 행동 a를 취했을 때, 다음 상태가 s′가 될 확률
즉, 에이전트의 행동 이후 환경이 어떻게 변할지를 설명하는 확률.
예: 상태가 s1이고 에이전트가 a1을 했을 때 s2로 갈 확률 = 0.8 s3로 갈 확률 = 0.2
우리네 인생과 같다고 보면 됩니다. 기분에 따라 버스를 탈지 지하철을 탈지 그때 그때 다르게 행동을 선택하는데(stochastic policy) 시간 맞춰 도착할 확률 (전이확률)이 교통 상황에 따라 매번 바뀌니까요.
소리가 겹쳐서 들려요
0
19
2
전 강의와 전혀 이어지지가 않음
0
30
1
pytorch local 설치 옵션에 conda 가 없습니다.
0
38
3
강화학습저장 및 로드
0
57
1
16:07슬라이드에소 헷갈리는 부분이 있습니다
0
65
2
미분 결과가 왜 저렇게 나오는지 궁금합니다.
0
73
1
Taxi-v3에 대한 두 가지질문
0
51
1
그림에 대해서 잘 이해가 안됩니다.
0
55
1
stochastic state 관련
0
69
2
reward, value functnio
0
67
2
전이확률 / stochastic env.
0
65
1
model based
0
56
1
time sequential data 관련
0
57
2
Deep Q-Learning algorithm에 대하여
0
85
2
Cartpole 환경 이해 및 시각화 관련 문의
0
111
3
실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax
0
108
1
실습에러 TImelimit
0
151
2
실습
0
266
6
강의자료
0
131
2
강의 36강에서의 질문
0
179
1
Pytorch 설치 GPU 버전으로 다운해도 되나요?
0
354
2
정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제
0
219
1
반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.
0
341
2
강의코드 110_basic_operations_for ... 코드 실행 시 문제
1
311
1

