강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của sukmi122077
sukmi122077

câu hỏi đã được viết

Học tăng cường học dễ dàng với R

Phòng thí nghiệm PerDQN

PER DQN

Viết

·

232

0

강의 감사드립니다!

PER DQN 코드에서.. 

er<-target_Q-qvalue 한다음에 discount factor 를 er 에다가 곱하는데..

설명 해주신 식에서는 target_Q에다가 discount factor를 곱하고 (1) //

그전 state에서의 qvalue 에서 그전시점의 action에 해당하.는 값을 구하고 (2)

리워드+(1)-(2) 라고 이해했는데 코딩은 조금 다른 것 같아서요! 

머신러닝 배워볼래요? R강화학습

Câu trả lời 1

0

coco님의 프로필 이미지
coco
Người chia sẻ kiến thức

안녕하세요 MQ님

아래 코드와  수식을 비교해보면 delta 변수와 TD-error가 같은 것을 확인 할 수 있습니다.

      er<-target_Q-qvalue

      delta<-re_ep[1]+dis_f*er[action_index]   

Hình ảnh hồ sơ của sukmi122077
sukmi122077

câu hỏi đã được viết

Đặt câu hỏi