PPO에서 min()을 사용하는 이유가 궁금합니다

Question

설명해주신대로면, min()을 사용하지 않아도 이미 clip()을 통해서 r()이 상항과 하한을 넘기면 a 혹은 b로 고정되고, 그 범위 안에 들어가면 r()이 그대로 나오는 것으로 생각됩니다. min()이 여기서 어떠한 역할을 하는지 궁금합니다. => 범위 안에 있을때 r(original) 과 r(clipped)가 달라지는 경우가 있나요?

einfallab · Answer

안녕하세요 coden님. 저도 깊이 생각해보지 않은 문제인데, 굉장히 꼼꼼하게 강의를 보신 것 같습니다. Clipping의 기본 개념은 상한과 하한을 제한해서 급격한 변화를 막는 것입니다. r이 1, a가 2, b가 4일 경우 clip(r, a, b)의 결과는 2가 됩니다. min(r, clip(r,a,b))의 결과는 가장 작은 값을 가져오므로 1(r)이 되겠습니다. 상한을 제한하지만, 하한을 제한하지 못하는 것 같습니다. 저도 좀 더 고민해봐야 될 문제인 것 같네요. 참고로 위 수식은 Open AI 논문에서 그대로 가져온 것입니다. 알고리즘을 수정해서 테스트해보는 것도 좋을 것 같습니다. 좋은 의견 감사합니다.