DQN 알고리즘 실행 결과
357
投稿した質問数 6
말씀하신대로 코드를 수정하니 정상적으로 학습을 진행합니다.
다만 학습 결과가 안 좋은데.... 강의에서 설명하신 것을 보면 하이퍼 파라메터에 민감하다고 하셨습니다.
제 생각에는 하이퍼 파라메타 문제보다 타겟 신경망을 계속 업데이트하는 문제, 즉 부트스트랩의 문제점이라고 생각합니다.
유튜브나 다른 책에서 DQN 코드를 보면 별도의 타겟 신경망을 만들어서 따로 업데이트하고 있습니다.
현재 코드는 부트스트랩 문제를 안고 있는데, 학습 결과가 좋지 않은 것에 대해 의견 부탁드립니다.
回答 1
0
안녕하세요 ljp4122님.
ljp4122님 말씀데로 본 강의에서 다루고있는 코드는 부트스트랩 문제를 안고 있습니다. DQN 알고리즘에서 이와 관련된 문제를 개선하기 보다 일반적으로 효과가 좋은 정책기반 알고리즘을 중점적으로 설명하고 있습니다.
모든 알고리즘은 개선점을 가지고 있습니다. 이를 보완하기 위한 다양한 방법들이 논문으로 나오고 있습니다.
본 강의를 통해 강화학습에 대한 기본기를 익힌 다음 다양한 논문을 통해 보다 효과적인 알고리즘을 학습하시는 것을 추천 드리겠습니다.
감사합니다.
*부트스트랩을 쉽게 설명하고 있는 블로그를 소개 드립니다. https://cumulu-s.tistory.com/7
딥러닝 코드에 Batch Normalization 적용해보기 질문입니다
0
580
1
딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 질문입니다
0
478
1
Binary Classfication 딥러닝 적용해보기 질문입니다
0
366
1
파이토치 device (gpu / cpu) 관련 질문드립니다.
0
711
1
혹시 응용편은 어디서 볼 수 있을까요?
0
471
1
karting asset
0
434
2
using Unity.MLAgents; 오류
0
641
1
Augmentation 질문
1
390
1
cartpole_reinforce.ipynb 에러
0
530
2
DQN 코드 에러
0
494
1
DQN 질문
0
546
1
개발환경 구축관련 문의 드립니다.
0
230
1
MDP질문
0
207
1
MDP 질문
0
266
1
보상값과 보상함수
0
876
1
MDP 상태가치 함수에서 기대값 관련 질문 드립니다.
0
412
1
Reward 에 대한 질문 드립니다.
1
237
1
ppo에서 exploration을 어떻게 하는지 궁금합니다.
0
881
2
강의 외 질문입니다. Env 내부 action에 대한 질문입니다.
0
301
1
episode중간에 weight나 모델을 저장하고싶습니다.
0
941
2
action을 매 episode마다 출력하기위해서는 어떻게 해야하나요?
0
227
1
MDP 행동가치함수에 대한 문의 입니다.
0
404
1
TypeError: in user code: TypeError: Can not convert a NoneType into a Tensor or Operation.
0
1046
5
cartpole_dqn 중 def train_mini_batch(self,Q):에서 Q[0,0,action]의 0,0의 의미는?
0
201
1

