強化学習入門からDeep Q-learning/Policy Gradientまで
決定論的 vs. 確率論的環境 (Deterministic vs. Stochastic Environment)
전이확률 / stochastic env.
65
投稿した質問数 18
안녕하세요.
그럼 stochastic env. 에서
특정 action을 선택해서 행했을때, 그 action이 이루어 지는지 다른 action이 이루어 지는지에 대한 확률이 transition probability(전이확률) 이 되는 것이라는 말씀인지요?
감사합니다.
回答 1
0
아닙니다.
stochastic env.에서 선택한 action 자체는 그대로 실행됩니다.
다만 그 결과(다음 상태·보상)가 확률적으로 달라지며, 이것이 transition probability입니다.
좋은 질문 감사합니다.
소리가 겹쳐서 들려요
0
23
2
전 강의와 전혀 이어지지가 않음
0
30
1
pytorch local 설치 옵션에 conda 가 없습니다.
0
38
3
강화학습저장 및 로드
0
57
1
16:07슬라이드에소 헷갈리는 부분이 있습니다
0
65
2
미분 결과가 왜 저렇게 나오는지 궁금합니다.
0
73
1
Taxi-v3에 대한 두 가지질문
0
51
1
그림에 대해서 잘 이해가 안됩니다.
0
55
1
stochastic state 관련
0
69
2
reward, value functnio
0
67
2
확률론적 policy 관련
0
47
1
model based
0
56
1
time sequential data 관련
0
57
2
Deep Q-Learning algorithm에 대하여
0
85
2
Cartpole 환경 이해 및 시각화 관련 문의
0
111
3
실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax
0
108
1
실습에러 TImelimit
0
151
2
실습
0
267
6
강의자료
0
131
2
강의 36강에서의 질문
0
179
1
Pytorch 설치 GPU 버전으로 다운해도 되나요?
0
354
2
정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제
0
219
1
반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.
0
341
2
강의코드 110_basic_operations_for ... 코드 실행 시 문제
1
311
1

