DQN 알고리즘 실행 결과

Question

말씀하신대로 코드를 수정하니 정상적으로 학습을 진행합니다. 다만 학습 결과가 안 좋은데.... 강의에서 설명하신 것을 보면 하이퍼 파라메터에 민감하다고 하셨습니다. 제 생각에는 하이퍼 파라메타 문제보다 타겟 신경망을 계속 업데이트하는 문제, 즉 부트스트랩의 문제점이라고 생각합니다. 유튜브나 다른 책에서 DQN 코드를 보면 별도의 타겟 신경망을 만들어서 따로 업데이트하고 있습니다. 현재 코드는 부트스트랩 문제를 안고 있는데, 학습 결과가 좋지 않은 것에 대해 의견 부탁드립니다.

multicoreit · Answer

안녕하세요 ljp4122님. ljp4122님 말씀데로 본 강의에서 다루고있는 코드는 부트스트랩 문제를 안고 있습니다. DQN 알고리즘에서 이와 관련된 문제를 개선하기 보다 일반적으로 효과가 좋은 정책기반 알고리즘을 중점적으로 설명하고 있습니다. 모든 알고리즘은 개선점을 가지고 있습니다. 이를 보완하기 위한 다양한 방법들이 논문으로 나오고 있습니다. 본 강의를 통해 강화학습에 대한 기본기를 익힌 다음 다양한 논문을 통해 보다 효과적인 알고리즘을 학습하시는 것을 추천 드리겠습니다. 감사합니다. *부트스트랩을 쉽게 설명하고 있는 블로그를 소개 드립니다. https://cumulu-s.tistory.com/7