inflearn logo
강의

講義

知識共有

強化学習入門からDeep Q-learning/Policy Gradientまで

Q-learning と Deep Q-learning の比較

미분 결과가 왜 저렇게 나오는지 궁금합니다.

73

hyounghe07248680

投稿した質問数 8

0

6:49쯤에, MSBE = (delta_{t+1})^2의 미분 결과가 2*(delta_{t+1})* (\partial(delta_{t+1}}); 합성함수의 미분, 의 형태가 아닌 화면에 나오는 것처럼 미분이 되는지 궁금합니다.

 

추가로 policy improvement step에서 각 action에 대해서 value가 높은 weight로 parameters을 업데이트 하면서 자동적으로 최적pi를 찾게 된다고 보는 게 맞는 이해일까요?

python 딥러닝 강화학습 pytorch

回答 1

0

YoungJea Oh

image.png

를 미분하면 (연쇄법칙)

image.png


따라서,

image.png

입니다.

두번째 질문하신 내용은 잘 이해하고 계십니다. 즉, value(Q)가 높은 action은 gradient에 큰 양수 weight를 줘서 그 action이 선택될 확률이 커지도록 하고, value가 낮으면 선택 확률을 줄이는 방향으로 학습됩니다. 좋은 질문 감사합니다.

0

hyounghe07248680

앞에 2가 없어서 헷갈렸습니다. 감사합니다!

소리가 겹쳐서 들려요

0

19

2

전 강의와 전혀 이어지지가 않음

0

30

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

38

3

강화학습저장 및 로드

0

57

1

16:07슬라이드에소 헷갈리는 부분이 있습니다

0

65

2

Taxi-v3에 대한 두 가지질문

0

51

1

그림에 대해서 잘 이해가 안됩니다.

0

55

1

stochastic state 관련

0

69

2

reward, value functnio

0

67

2

전이확률 / stochastic env.

0

65

1

확률론적 policy 관련

0

47

1

model based

0

56

1

time sequential data 관련

0

57

2

Deep Q-Learning algorithm에 대하여

0

85

2

Cartpole 환경 이해 및 시각화 관련 문의

0

111

3

실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax

0

108

1

실습에러 TImelimit

0

151

2

실습

0

266

6

강의자료

0

131

2

강의 36강에서의 질문

0

179

1

Pytorch 설치 GPU 버전으로 다운해도 되나요?

0

354

2

정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제

0

219

1

반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.

0

341

2

강의코드 110_basic_operations_for ... 코드 실행 시 문제

1

311

1