inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

유니티 머신러닝 에이전트 완전정복 (응용편)

PPO 실습 2

(PPO 실습 2) total_loss 구하는 코드에서 action entropy 는 어떻게 계산된 것인지 궁금합니다.

해결된 질문

352

윤용곤

작성한 질문수 1

0

우선 좋은 수업 감사드립니다.

 

PPO 알고리즘 수업에서 PPO Actor-Critic Network 의 전체 손실 값은 clipped surrogate objective - c1 * value loss (critic loss) + c2 * action entropy 라고 배웠는데, 관련 부분에 대한 코드를 보면

actor_loss = -torch.min(surr1, surr2).mean()
critic_loss = F.mse_loss(value, _ret).mean()
total_loss = actor_loss + critic_loss

로 action entropy 에 대한 연산은 없는 것 같아 보입니다. 혹시 제가 잘못 알고 있거나, 다른 부분에서 이미 고려된 것이라면, 알려주시길 부탁 드립니다.

아니면 고려하지 않아도 되는 조건이라면 어떤 이유가 있는지 알고 싶습니다.

 

감사합니다.

 

unity 강화학습 unity-ml-agents

답변 1

1

이현호

용곤님 안녕하세요!

 

말씀해주신대로 PPO에서 action entropy값을 손실함수로 사용할 수 있습니다.

다만 해당 값은 선택적인 부분이라고 생각하고, 강의 환경들에서 clipped surrogate objective 값만 가지고 학습이 잘 되어서 생략하였습니다!

 

감사합니다.

1

윤용곤

답변 감사드립니다!!

ResourceManager 클래스 관련 질문

1

21

2

FBX chan 모델

0

15

1

첨부된 수업자료와 강의 내용이 다릅니다.

0

38

2

몬스터 HP 게이지바 이동

0

20

1

TextMeshPro용 커스텀 한글 2350자.txt 파일은 어디에 있나요?

0

22

1

02-02 NavMesh 응용 캐릭터 멈춤 문제

0

33

1

02-02 NavMesh 응용 캐릭터 멈춤 문제

0

41

2

C#에서의 RAII

0

63

3

Scene 뷰에서 Enemy Entity가 보이지 않는 문제

0

47

2

Lessons 3 & 4 don't have subtitles unfortunately

0

39

1

aws deep racer 이제 못하는건가요?

0

44

2

클로드코드 + 유니티 컨텐츠만들기 응용에 대하여 질문드립니다.

0

67

1

매니저 관련 질문이 있습니다.

0

69

2

Instantiate

0

48

2

유니티 허브 다운로드

1

62

2

비쥬얼 스튜디오에서 unity연결이 없습니다.

0

74

2

UserDataManager 클래스 hasSaveError 처리

0

46

2

제공해주신 자료에 스크립트들이 빠져있습니다

0

42

2

플레이어를 왜 ECS로 만드는 건가요?

0

55

1

싱글턴패턴

0

48

2

코드 관련 질문

0

49

2

닷지 ckpt 모델 파일을 onnx변환 후 unity에서 추론

0

168

2

예제 파일 실행 오류

0

298

1

PPO 알고리즘을 ml-agents learn 명령어로 학습 및 추론할때 메소드 호출 순서 질문

0

372

1