inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Học tăng cường cho lập trình viên (tác giả trực tiếp giảng dạy)

Hiểu thuật toán PPO

PPO에서 min()을 사용하는 이유가 궁금합니다

594

coden

1 câu hỏi đã được viết

0

설명해주신대로면,

min()을 사용하지 않아도 이미 clip()을 통해서 r()이 상항과 하한을 넘기면 a 혹은 b로 고정되고, 그 범위 안에 들어가면 r()이 그대로 나오는 것으로 생각됩니다. min()이 여기서 어떠한 역할을 하는지 궁금합니다.

=> 범위 안에 있을때 r(original) 과 r(clipped)가 달라지는 경우가 있나요?

인공신경망 강화학습

Câu trả lời 1

0

multicoreit

안녕하세요 coden님.

저도 깊이 생각해보지 않은 문제인데, 굉장히 꼼꼼하게 강의를 보신 것 같습니다.

Clipping의 기본 개념은 상한과 하한을 제한해서 급격한 변화를 막는 것입니다.

imager이 1, a가 2, b가 4일 경우 clip(r, a, b)의 결과는 2가 됩니다.

min(r, clip(r,a,b))의 결과는 가장 작은 값을 가져오므로 1(r)이 되겠습니다.

상한을 제한하지만, 하한을 제한하지 못하는 것 같습니다.

저도 좀 더 고민해봐야 될 문제인 것 같네요.

참고로 위 수식은 Open AI 논문에서 그대로 가져온 것입니다.

알고리즘을 수정해서 테스트해보는 것도 좋을 것 같습니다.

좋은 의견 감사합니다.

전 강의와 전혀 이어지지가 않음

0

23

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

30

3

강화학습저장 및 로드

0

54

1

수업 하실 때 활용하시는 강의 자료를 제공 받을 수 있는지 문의 드립니다

0

66

2

마르코프 결정과정 질문

0

67

2

stable_baseline3 설치 안됨

0

249

2

최적화

0

32

0

소스코드

0

33

1

<대규모 언어 모델, 핵심만 빠르게!> 쿠폰은 언제쯤 발급되나요?

0

52

3

section 3 이후는 언제 보게 되나요?

0

75

2

강의확인 체크가 안됩니다

0

76

2

챌린지만 등록하고 강의 수강을 놓쳤습니다.

0

94

2

커리큘럼, 섹션 미스매치

1

69

1

전자책 정오 업데이트 관련 문의

0

57

2

쿠폰관련 문의

0

49

2

챌린지 강의 영상 업로드

0

50

2

쿠폰관련입니다ㅠ

0

69

2

section2는 언제 upload 하나요?

0

61

2

온라인 강의 관련 문의

0

67

3

실습강의 소스코드

0

73

2

환경구축에 대해서

0

79

2

MyModel(tf.keras.Model)에 action matrix와 reward와 관련해서

0

314

1

2.7 TD 상태가치함수

1

270

1

cartpole_DQN 에러

0

413

2