우선 좋은 수업 감사드립니다. &nbsp;PPO 알고리즘 수업에서 PPO Actor-Critic Network 의 전체 손실 값은 clipped surrogate objective - c1 * value loss (critic loss) + c2 * action entropy 라고 배웠는데, 관련 부분에 대한 코드를 보면 <pre><code class="language-python">actor_loss = -torch.min(surr1, surr2).mean()
critic_loss = F.mse_loss(value, _ret).mean()
total_loss = actor_loss + critic_loss</code></pre>로 action entropy 에 대한 연산은 없는 것 같아 보입니다. 혹시 제가 잘못 알고 있거나, 다른 부분에서 이미 고려된 것이라면, 알려주시길 부탁 드립니다. 아니면 고려하지 않아도 되는 조건이라면 어떤 이유가 있는지 알고 싶습니다. &nbsp;감사합니다. &nbsp;

용곤님 안녕하세요!&nbsp;말씀해주신대로 PPO에서 action entropy값을 손실함수로 사용할 수 있습니다. 다만 해당 값은 선택적인 부분이라고 생각하고, 강의 환경들에서 clipped surrogate objective 값만 가지고 학습이 잘 되어서 생략하였습니다!&nbsp;감사합니다.

Inflearn Community Q&A

(PPO 실습 2) total_loss 구하는 코드에서 action entropy 는 어떻게 계산된 것인지 궁금합니다.