inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

강화학습 입문에서 Deep Q-learning/Policy Gradient까지

결정론적 vs. 확률론적 환경(Deterministic vs. Stochastic Environment)

전이확률 / stochastic env.

66

능함가

작성한 질문수 18

0

안녕하세요.

그럼 stochastic env. 에서
특정 action을 선택해서 행했을때, 그 action이 이루어 지는지 다른 action이 이루어 지는지에 대한 확률이 transition probability(전이확률) 이 되는 것이라는 말씀인지요?

 

감사합니다.

python 딥러닝 강화학습 pytorch

답변 1

0

YoungJea Oh

아닙니다.

  • stochastic env.에서 선택한 action 자체는 그대로 실행됩니다.

  • 다만 그 결과(다음 상태·보상)가 확률적으로 달라지며, 이것이 transition probability입니다.

좋은 질문 감사합니다.

소리가 겹쳐서 들려요

0

30

2

전 강의와 전혀 이어지지가 않음

0

33

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

39

3

강화학습저장 및 로드

0

61

1

16:07슬라이드에소 헷갈리는 부분이 있습니다

0

65

2

미분 결과가 왜 저렇게 나오는지 궁금합니다.

0

74

1

Taxi-v3에 대한 두 가지질문

0

51

1

그림에 대해서 잘 이해가 안됩니다.

0

56

1

stochastic state 관련

0

69

2

reward, value functnio

0

68

2

확률론적 policy 관련

0

47

1

model based

0

56

1

time sequential data 관련

0

58

2

Deep Q-Learning algorithm에 대하여

0

86

2

Cartpole 환경 이해 및 시각화 관련 문의

0

113

3

실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax

0

109

1

실습에러 TImelimit

0

152

2

실습

0

267

6

강의자료

0

131

2

강의 36강에서의 질문

0

179

1

Pytorch 설치 GPU 버전으로 다운해도 되나요?

0

356

2

정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제

0

220

1

반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.

0

342

2

강의코드 110_basic_operations_for ... 코드 실행 시 문제

1

313

1