강의

멘토링

커뮤니티

Inflearn Community Q&A

y2gon28999's profile image
y2gon28999

asked

Mastering Unity Machine Learning Agents (Application Edition)

PPO Practice 2

(PPO 실습 2) total_loss 구하는 코드에서 action entropy 는 어떻게 계산된 것인지 궁금합니다.

Resolved

Written on

·

289

0

우선 좋은 수업 감사드립니다.

 

PPO 알고리즘 수업에서 PPO Actor-Critic Network 의 전체 손실 값은 clipped surrogate objective - c1 * value loss (critic loss) + c2 * action entropy 라고 배웠는데, 관련 부분에 대한 코드를 보면

actor_loss = -torch.min(surr1, surr2).mean()
critic_loss = F.mse_loss(value, _ret).mean()
total_loss = actor_loss + critic_loss

로 action entropy 에 대한 연산은 없는 것 같아 보입니다. 혹시 제가 잘못 알고 있거나, 다른 부분에서 이미 고려된 것이라면, 알려주시길 부탁 드립니다.

아니면 고려하지 않아도 되는 조건이라면 어떤 이유가 있는지 알고 싶습니다.

 

감사합니다.

 

unity강화학습unity-ml-agents

Answer 1

1

ramanuzan님의 프로필 이미지
ramanuzan
Instructor

용곤님 안녕하세요!

 

말씀해주신대로 PPO에서 action entropy값을 손실함수로 사용할 수 있습니다.

다만 해당 값은 선택적인 부분이라고 생각하고, 강의 환경들에서 clipped surrogate objective 값만 가지고 학습이 잘 되어서 생략하였습니다!

 

감사합니다.

y2gon28999님의 프로필 이미지
y2gon28999
Questioner

답변 감사드립니다!!

y2gon28999's profile image
y2gon28999

asked

Ask a question