(PPO 실습 2) total_loss 구하는 코드에서 action entropy 는 어떻게 계산된 것인지 궁금합니다.
우선 좋은 수업 감사드립니다.
PPO 알고리즘 수업에서 PPO Actor-Critic Network 의 전체 손실 값은 clipped surrogate objective - c1 * value loss (critic loss) + c2 * action entropy 라고 배웠는데, 관련 부분에 대한 코드를 보면
actor_loss = -torch.min(surr1, surr2).mean()
critic_loss = F.mse_loss(value, _ret).mean()
total_loss = actor_loss + critic_loss로 action entropy 에 대한 연산은 없는 것 같아 보입니다. 혹시 제가 잘못 알고 있거나, 다른 부분에서 이미 고려된 것이라면, 알려주시길 부탁 드립니다.
아니면 고려하지 않아도 되는 조건이라면 어떤 이유가 있는지 알고 싶습니다.
감사합니다.
답변 1
Dictionary Key를 int에서 string으로 변경한 이유에 대한 문의
0
5
1
UI 기능 관련 질문이 있습니다!
0
26
2
03-01 (16. CharacterController)
0
25
2
TLS 질문드립니다.
0
37
2
Task 구현 28:36 Equals 에서 잘 모르는 부분이 있습니다.
0
21
2
SpinLock과 컨텍스트스위칭에 대해 질문 남겨요.
0
44
2
전 강의와 전혀 이어지지가 않음
0
25
1
pytorch local 설치 옵션에 conda 가 없습니다.
0
31
3
픽셀 좌표 스크린 좌표
0
28
0
Locomotion랑 Turn 이 꼭 부모 자식 관계일 필요가 있나요?
0
21
1
LobbyUIController의 백키가 사라졌는데 왜그런건가요?
0
39
2
무조건 타이틀 씬부터 시작해야하나요?
0
37
1
BaseUI, UIManager
0
47
3
프로젝트 완성본 문의
0
38
2
Unity Span
0
69
2
씬 배치 구조에서 Addressables를 어떻게 적용해야 하는지 궁금합니다.
0
52
1
39. Main화면 추가 UI 에서 자료는 어디서 받나요??
0
30
1
Scene 전환에서
0
23
1
전체적으로 코드 읽는게 굉장히 오래 걸리네요...
0
68
2
강화학습저장 및 로드
0
55
1
사전학습 강의
0
50
1
닷지 ckpt 모델 파일을 onnx변환 후 unity에서 추론
0
147
2
예제 파일 실행 오류
0
289
1
PPO 알고리즘을 ml-agents learn 명령어로 학습 및 추론할때 메소드 호출 순서 질문
0
363
1





