(PPO 실습 2) total_loss 구하는 코드... - Inflearn

Mastering Unity Machine Learning Agents (Application Edition)

PPO Practice 2

(PPO 실습 2) total_loss 구하는 코드에서 action entropy 는 어떻게 계산된 것인지 궁금합니다.

Resolved2024-05-14T05:05:11.549Z

340

y2gon28999

1 asked

우선 좋은 수업 감사드립니다.

PPO 알고리즘 수업에서 PPO Actor-Critic Network 의 전체 손실 값은 clipped surrogate objective - c1 * value loss (critic loss) + c2 * action entropy 라고 배웠는데, 관련 부분에 대한 코드를 보면

actor_loss = -torch.min(surr1, surr2).mean()
critic_loss = F.mse_loss(value, _ret).mean()
total_loss = actor_loss + critic_loss

로 action entropy 에 대한 연산은 없는 것 같아 보입니다. 혹시 제가 잘못 알고 있거나, 다른 부분에서 이미 고려된 것이라면, 알려주시길 부탁 드립니다.

아니면 고려하지 않아도 되는 조건이라면 어떤 이유가 있는지 알고 싶습니다.

감사합니다.

unity 강화학습 unity-ml-agents

Answer 1

ramanuzan

2024-05-14T10:09:52.428Z

용곤님 안녕하세요!

말씀해주신대로 PPO에서 action entropy값을 손실함수로 사용할 수 있습니다.

다만 해당 값은 선택적인 부분이라고 생각하고, 강의 환경들에서 clipped surrogate objective 값만 가지고 학습이 잘 되어서 생략하였습니다!

감사합니다.

y2gon28999

2024-05-14T10:26:11.363Z

답변 감사드립니다!!

클로드코드 + 유니티 컨텐츠만들기 응용에 대하여 질문드립니다.

2026-05-14T03:15:05.931Z

매니저 관련 질문이 있습니다.

2026-05-13T05:43:23.449Z

Instantiate

2026-05-11T03:55:38.391Z

유니티 허브 다운로드

2026-05-07T07:59:12.440Z

비쥬얼 스튜디오에서 unity연결이 없습니다.

2026-05-04T02:30:57.852Z

UserDataManager 클래스 hasSaveError 처리

2026-05-03T16:03:09.569Z

제공해주신 자료에 스크립트들이 빠져있습니다

2026-05-03T09:52:58.604Z

플레이어를 왜 ECS로 만드는 건가요?

2026-05-02T08:55:24.307Z

싱글턴패턴

2026-04-30T13:49:59.539Z

코드 관련 질문

2026-04-28T14:26:01.412Z

섹션7 수업자료 업로드 부탁드립니다.

2026-04-27T14:40:16.781Z

소리가 겹쳐서 들려요

2026-04-27T14:32:22.191Z

Dictionary Key를 int에서 string으로 변경한 이유에 대한 문의

2026-04-24T09:36:04.396Z

UI 기능 관련 질문이 있습니다!

2026-04-18T15:45:36.325Z

03-01 (16. CharacterController)

2026-04-17T04:16:02.986Z

TLS 질문드립니다.

2026-04-15T19:18:58.402Z

Task 구현 28:36 Equals 에서 잘 모르는 부분이 있습니다.

2026-04-15T00:19:16.465Z

SpinLock과 컨텍스트스위칭에 대해 질문 남겨요.

2026-04-14T09:26:33.307Z

전 강의와 전혀 이어지지가 않음

2026-04-14T07:56:41.495Z

pytorch local 설치 옵션에 conda 가 없습니다.

2026-04-14T05:29:23.353Z

픽셀 좌표 스크린 좌표

2026-04-13T14:47:42.174Z

닷지 ckpt 모델 파일을 onnx변환 후 unity에서 추론

2025-07-26T20:32:25.622Z

153

예제 파일 실행 오류

2024-04-05T05:54:15.149Z

292

PPO 알고리즘을 ml-agents learn 명령어로 학습 및 추론할때 메소드 호출 순서 질문

2024-01-23T13:53:31.265Z

367