PPO에서 min()을 사용하는 이유가 궁금합니다

Question

설명해주신대로면,min()을 사용하지 않아도 이미 clip()을 통해서 r()이 상항과 하한을 넘기면 a 혹은 b로 고정되고, 그 범위 안에 들어가면 r()이 그대로 나오는 것으로 생각됩니다. min()이 여기서 어떠한 역할을 하는지 궁금합니다.=> 범위 안에 있을때 r(original) 과 r(clipped)가 달라지는 경우가 있나요?

Answer

안녕하세요 coden님.저도 깊이 생각해보지 않은 문제인데, 굉장히 꼼꼼하게 강의를 보신 것 같습니다.Clipping의 기본 개념은 상한과 하한을 제한해서 급격한 변화를 막는 것입니다.[사진]r이 1, a가 2, b가 4일 경우 clip(r, a, b)의 결과는 2가 됩니다.min(r, clip(r,a,b))의 결과는 가장 작은 값을 가져오므로 1(r)이 되겠습니다.상한을 제한하지만, 하한을 제한하지 못하는 것 같습니다. 저도 좀 더 고민해봐야 될 문제인 것 같네요.참고로 위 수식은 Open AI 논문에서 그대로 가져온 것입니다.알고리즘을 수정해서 테스트해보는 것도 좋을 것 같습니다.좋은 의견 감사합니다.

coden

PPO에서 min()을 사용하는 이유가 궁금합니다

이 글과 비슷한 Q&A

다중레이어 경사하강법에서 질문

XOR파트에서 입력표현 방식

예제 파일 실행 오류

경사하강법에서 다중레이어에서의 가중치를 구할 때 식이 이해가 가질 않습니다 ㅠ.ㅠ