(PPO 실습 2) total_loss 구하는 코드에서 action entropy 는 어떻게 계산된 것인지 궁금합니다.
우선 좋은 수업 감사드립니다.
PPO 알고리즘 수업에서 PPO Actor-Critic Network 의 전체 손실 값은 clipped surrogate objective - c1 * value loss (critic loss) + c2 * action entropy 라고 배웠는데, 관련 부분에 대한 코드를 보면
actor_loss = -torch.min(surr1, surr2).mean()
critic_loss = F.mse_loss(value, _ret).mean()
total_loss = actor_loss + critic_loss로 action entropy 에 대한 연산은 없는 것 같아 보입니다. 혹시 제가 잘못 알고 있거나, 다른 부분에서 이미 고려된 것이라면, 알려주시길 부탁 드립니다.
아니면 고려하지 않아도 되는 조건이라면 어떤 이유가 있는지 알고 싶습니다.
감사합니다.
Answer 1
1
용곤님 안녕하세요!
말씀해주신대로 PPO에서 action entropy값을 손실함수로 사용할 수 있습니다.
다만 해당 값은 선택적인 부분이라고 생각하고, 강의 환경들에서 clipped surrogate objective 값만 가지고 학습이 잘 되어서 생략하였습니다!
감사합니다.
컴퓨터를 껐다가 클로드 코드 다시 키는 방법 알려주세요.
0
6
0
MA-POCA 알고리즘 응용 질문
0
11
1
Pivot을 마우스로 클릭하고 드래그해도 움직이 않아서 혹시 아시는 부분이 있나 해서 문의 남깁니다.
0
15
1
카메라가 많아지면 렌더링 비용이 커지나요?
0
28
1
3:56에 폰트 불러온 과정이 궁금합니다 ㅠㅠ
0
40
3
Spider와 Monster 구현 방식을 구분한 이유
1
25
1
Sprute Sheet에 대해서.
0
34
1
ResourceManager 클래스 관련 질문
1
43
2
FBX chan 모델
0
28
1
첨부된 수업자료와 강의 내용이 다릅니다.
0
67
2
몬스터 HP 게이지바 이동
0
24
1
TextMeshPro용 커스텀 한글 2350자.txt 파일은 어디에 있나요?
0
34
1
02-02 NavMesh 응용 캐릭터 멈춤 문제
0
36
1
02-02 NavMesh 응용 캐릭터 멈춤 문제
0
50
2
C#에서의 RAII
0
74
3
Scene 뷰에서 Enemy Entity가 보이지 않는 문제
0
51
2
Lessons 3 & 4 don't have subtitles unfortunately
0
40
1
aws deep racer 이제 못하는건가요?
0
52
2
클로드코드 + 유니티 컨텐츠만들기 응용에 대하여 질문드립니다.
0
83
1
매니저 관련 질문이 있습니다.
0
76
2
Instantiate
0
57
2
닷지 ckpt 모델 파일을 onnx변환 후 unity에서 추론
0
172
2
예제 파일 실행 오류
0
304
1
PPO 알고리즘을 ml-agents learn 명령어로 학습 및 추론할때 메소드 호출 순서 질문
0
374
1

