해결된 질문
작성
·
48
0
DQN과 DDQN의 차이점을 정확히 알고싶습니다. argmax연산에서 차이가 난다는데
DQN이 최댓값연산으로 통해 Q함수가 최댓값을 통해 오버피팅이 된다는건 어느 정도 이해를했습니다.
DDQN에서는 argmax연산을 풀어 쓴다고 되어있는데 이게 무슨 차이인지 정확히 모르겠습니다.
이 풀어씀으로써 어떤 이득을 볼수있는지 정확하게 모르겠습니다.
제가 고졸이라 아직 미흡한 부분이 많습니다. 글을 여러번 읽어도 무슨소리인지 모르겠습니다.
그래서 혹시 상세히 설명 해주실분 혹시 있나요..?
답변