-
카테고리
-
세부 분야
딥러닝 · 머신러닝
-
해결 여부
미해결
PER DQN
20.09.23 05:35 작성 조회수 121
0
강의 감사드립니다!
PER DQN 코드에서..
er<-target_Q-qvalue 한다음에 discount factor 를 er 에다가 곱하는데..
설명 해주신 식에서는 target_Q에다가 discount factor를 곱하고 (1) //
그전 state에서의 qvalue 에서 그전시점의 action에 해당하.는 값을 구하고 (2)
리워드+(1)-(2) 라고 이해했는데 코딩은 조금 다른 것 같아서요!
답변을 작성해보세요.
0
코코
지식공유자2020.09.25
안녕하세요 MQ님
아래 코드와 수식을 비교해보면 delta 변수와 TD-error가 같은 것을 확인 할 수 있습니다.
er<-target_Q-qvalue
delta<-re_ep[1]+dis_f*er[action_index]
답변 1