강화학습 DDQN에 대한 질문있습니다.

Question

DQN과 DDQN의 차이점을 정확히 알고싶습니다. argmax연산에서 차이가 난다는데 DQN이 최댓값연산으로 통해 Q함수가 최댓값을 통해 오버피팅이 된다는건 어느 정도 이해를했습니다. DDQN에서는 argmax연산을 풀어 쓴다고 되어있는데 이게 무슨 차이인지 정확히 모르겠습니다. 이 풀어씀으로써 어떤 이득을 볼수있는지 정확하게 모르겠습니다. 제가 고졸이라 아직 미흡한 부분이 많습니다. 글을 여러번 읽어도 무슨소리인지 모르겠습니다. 그래서 혹시 상세히 설명 해주실분 혹시 있나요..?