66,000원
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 해결됨유니티 머신러닝 에이전트 완전정복 (응용편)
(PPO 실습 2) total_loss 구하는 코드에서 action entropy 는 어떻게 계산된 것인지 궁금합니다.
우선 좋은 수업 감사드립니다. PPO 알고리즘 수업에서 PPO Actor-Critic Network 의 전체 손실 값은 clipped surrogate objective - c1 * value loss (critic loss) + c2 * action entropy 라고 배웠는데, 관련 부분에 대한 코드를 보면 actor_loss = -torch.min(surr1, surr2).mean() critic_loss = F.mse_loss(value, _ret).mean() total_loss = actor_loss + critic_loss로 action entropy 에 대한 연산은 없는 것 같아 보입니다. 혹시 제가 잘못 알고 있거나, 다른 부분에서 이미 고려된 것이라면, 알려주시길 부탁 드립니다. 아니면 고려하지 않아도 되는 조건이라면 어떤 이유가 있는지 알고 싶습니다. 감사합니다.
- 미해결유니티 머신러닝 에이전트 완전정복 (응용편)
예제 파일 실행 오류
a09.rnd_ppo.pya11.hypernetworks_ppo.py이 두 파일이 실행이 안됩니다. 나머지 파일은 잘 실행되네요.
- 미해결유니티 머신러닝 에이전트 완전정복 (응용편)
PPO 알고리즘을 ml-agents learn 명령어로 학습 및 추론할때 메소드 호출 순서 질문
안녕하세요!먼저 기초편에 이어서 응용편 강의를 공개해주셔서 정말 감사합니다!! 해당 강의를 들으면서 PPO 알고리즘을 ml-agents learn 명령어로 학습 할 때와 추론할 때 메소드 호출 순서에 대해서 궁금합니다.이 내용이 궁금한 이유는 각 학습 또는 추론 과정에서 각 메소드별로 연산 시간을 측정하기 위해서 입니다. 관련 자료를 어디서 확인할 수 있을까요? 감사합니다!