強化学習入門からDeep Q-learning/Policy Gradientまで

決定論的 vs. 確率論的環境 (Deterministic vs. Stochastic Environment)

전이확률 / stochastic env.

2025-08-29T17:54:38.349Z

etank34721

投稿した質問数 18

안녕하세요.

그럼 stochastic env. 에서
특정 action을 선택해서 행했을때, 그 action이 이루어 지는지 다른 action이 이루어 지는지에 대한 확률이 transition probability(전이확률) 이 되는 것이라는 말씀인지요?

감사합니다.

python 딥러닝 강화학습 pytorch

回答 1

YoungJea Oh

2025-08-29T22:02:52.908Z

아닙니다.

stochastic env.에서 선택한 action 자체는 그대로 실행됩니다.
다만 그 결과(다음 상태·보상)가 확률적으로 달라지며, 이것이 transition probability입니다.

좋은 질문 감사합니다.

소리가 겹쳐서 들려요

2026-04-27T14:32:22.191Z

전 강의와 전혀 이어지지가 않음

2026-04-14T07:56:41.495Z

pytorch local 설치 옵션에 conda 가 없습니다.

2026-04-14T05:29:23.353Z

강화학습저장 및 로드

2026-03-14T13:26:15.839Z

16:07슬라이드에소 헷갈리는 부분이 있습니다

2025-09-28T16:57:36.748Z

미분 결과가 왜 저렇게 나오는지 궁금합니다.

2025-09-27T14:56:47.138Z

Taxi-v3에 대한 두 가지질문

2025-09-15T03:39:20.587Z

그림에 대해서 잘 이해가 안됩니다.

2025-09-02T01:54:03.453Z

stochastic state 관련

2025-09-01T19:34:23.408Z

reward, value functnio

2025-08-31T03:48:39.065Z

확률론적 policy 관련

2025-08-29T17:38:00.522Z

model based

2025-08-26T21:34:49.045Z

time sequential data 관련

2025-08-26T17:43:37.582Z

Deep Q-Learning algorithm에 대하여

2025-08-18T14:47:26.573Z

Cartpole 환경 이해 및 시각화 관련 문의

2025-06-28T06:50:19.704Z

123

실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax

2025-04-20T08:26:21.378Z

118

실습에러 TImelimit

2025-01-22T07:57:57.509Z

159

실습

2025-01-21T11:03:11.624Z

282

강의자료

2025-01-20T11:24:14.869Z

134

강의 36강에서의 질문

2024-10-06T03:00:33.191Z

188

Pytorch 설치 GPU 버전으로 다운해도 되나요?

2024-09-20T02:47:23.651Z

365

정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제

2024-07-19T05:34:04.902Z

226

반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.

2024-07-19T04:21:59.405Z

352

강의코드 110_basic_operations_for ... 코드 실행 시 문제

2023-11-06T16:05:20.557Z

317