유니티 머신러닝 에이전트 완전정복 (응용편)

PPO 실습 2

(PPO 실습 2) total_loss 구하는 코드에서 action entropy 는 어떻게 계산된 것인지 궁금합니다.

해결된 질문2024-05-14T05:05:11.549Z

371

윤용곤

작성한 질문수 1

우선 좋은 수업 감사드립니다.

PPO 알고리즘 수업에서 PPO Actor-Critic Network 의 전체 손실 값은 clipped surrogate objective - c1 * value loss (critic loss) + c2 * action entropy 라고 배웠는데, 관련 부분에 대한 코드를 보면

actor_loss = -torch.min(surr1, surr2).mean()
critic_loss = F.mse_loss(value, _ret).mean()
total_loss = actor_loss + critic_loss

로 action entropy 에 대한 연산은 없는 것 같아 보입니다. 혹시 제가 잘못 알고 있거나, 다른 부분에서 이미 고려된 것이라면, 알려주시길 부탁 드립니다.

아니면 고려하지 않아도 되는 조건이라면 어떤 이유가 있는지 알고 싶습니다.

감사합니다.

unity 강화학습 unity-ml-agents

답변 1

이현호

2024-05-14T10:09:52.428Z

용곤님 안녕하세요!

말씀해주신대로 PPO에서 action entropy값을 손실함수로 사용할 수 있습니다.

다만 해당 값은 선택적인 부분이라고 생각하고, 강의 환경들에서 clipped surrogate objective 값만 가지고 학습이 잘 되어서 생략하였습니다!

감사합니다.

윤용곤

2024-05-14T10:26:11.363Z

답변 감사드립니다!!

소스를 받을 수 있는 링크가 있을까요?

2026-07-20T05:12:09.885Z

프로덕션 부분 사용 불가

2026-07-10T05:55:06.590Z

접근지정자

2026-07-08T05:51:25.512Z

in-app purchasing 버튼의 install 버튼이 비활성화되어있을때 어떻게 해결해야하나요 ?

2026-07-08T01:40:30.625Z

유니티 제외 설치한 프로그램들 및 파일 삭제 방법

2026-07-03T01:59:03.294Z

깃허브에서 콤피유아이 매니저 설치하는게 안됩니다.

2026-07-03T01:54:24.478Z

5강, 오류 수정과 관련해서

2026-06-30T02:45:54.632Z

컴퓨터를 껐다가 클로드 코드 다시 키는 방법 알려주세요.

2026-06-29T14:08:44.794Z

MA-POCA 알고리즘 응용 질문

2026-06-29T06:53:36.525Z

Pivot을 마우스로 클릭하고 드래그해도 움직이 않아서 혹시 아시는 부분이 있나 해서 문의 남깁니다.

2026-06-26T12:33:25.871Z

카메라가 많아지면 렌더링 비용이 커지나요?

2026-06-16T23:50:28.853Z

3:56에 폰트 불러온 과정이 궁금합니다 ㅠㅠ

2026-06-16T11:24:58.399Z

Spider와 Monster 구현 방식을 구분한 이유

2026-06-13T16:38:15.768Z

Sprute Sheet에 대해서.

2026-06-13T08:25:50.804Z

ResourceManager 클래스 관련 질문

2026-06-08T13:50:46.053Z

FBX chan 모델

2026-06-08T05:21:18.753Z

첨부된 수업자료와 강의 내용이 다릅니다.

2026-06-06T07:51:17.858Z

104

몬스터 HP 게이지바 이동

2026-06-05T05:52:41.123Z

TextMeshPro용 커스텀 한글 2350자.txt 파일은 어디에 있나요?

2026-06-04T07:57:25.183Z

02-02 NavMesh 응용 캐릭터 멈춤 문제

2026-05-28T04:08:03.424Z

02-02 NavMesh 응용 캐릭터 멈춤 문제

2026-05-28T03:51:36.235Z

닷지 ckpt 모델 파일을 onnx변환 후 unity에서 추론

2025-07-26T20:32:25.622Z

179

예제 파일 실행 오류

2024-04-05T05:54:15.149Z

316

PPO 알고리즘을 ml-agents learn 명령어로 학습 및 추론할때 메소드 호출 순서 질문

2024-01-23T13:53:31.265Z

389