알고리즘 관련

Question

안녕하세요, 알고리즘 관련해서 질문드리고 싶어 글 남깁니다.해당 드론 예제를 DDPG가 아닌 PPO로 학습할 경우 대체로 성능이 낮아질까요? 내장된 알고리즘이 아닌 DDPG를 선택해 사용하신 이유가 궁금합니다.또한 드론과 goal 사이에 여러 장애물이 무작위로 배치될 경우에도 해당 알고리즘으로 학습이 무리없이 진행될지 질문드리고 싶습니다.강화학습에 입문하면서 도움 많이 받고 있습니다. 감사합니다!

Answer

안녕하세요. 일반적으로는 PPO가 더 좋은 성능을 보이는 알고리즘이라 PPO를 사용하는 경우가 더 좋은 성능을 보일 것으로 생각됩니다. 단, 강화학습 알고리즘을 통해 ML-Agents 환경을 학습하는 방법은 ML-Agents에서 제공하는 알고리즘인 mlagents-learn을 사용하는 방식, 파이썬으로 직접 알고리즘을 구현해서 사용하는 python-API를 이용한 방식, 이렇게 2가지입니다. mlagents-learn을 사용하는 경우 간단하게 yaml에서 파라미터 설정만 해서 편하게 사용할 수 있는 반면 python-API를 사용하는 경우 직접 알고리즘을 하나하나 구현해야합니다. 보통 강화학습 학습 순서상 A2C -> DDPG -> PPO 순으로 진행하는 관계로 일단 A2C -> DDPG 순서로 이론, 코드 실습 진행을 했습니다. PPO의 경우 다음 강의에서 python-API로 구현하는 법을 다룰 예정입니다.

드론과 골 사이에 장애물이 무작위로 배치되는 경우 DDPG를 통해서 어느정도는 풀 수 있을 듯 하지만 현재 상태에 대한 설정으로는 장애물 자체를 인지할수가 없으므로 장애물에 대한 정보를 상태 정보로 추가해줘야 강화학습 알고리즘이 장애물에 대한 정보를 통해 이를 피할 수 있도록 학습될 것 같습니다. 그리고 일반적으로 DDPG는 난이도가 조금만 높아도 잘 못푸는 경향이 많습니다. 이 경우 PPO를 사용하는 것이 더 안정적으로 학습될 확률이 높습니다.

Snnlrn00

알고리즘 관련

이 글과 비슷한 Q&A

tiny kitti 데이터로 MMDectection Train 실습에서 클래스 id 질문

[MOCK EXAM] T2. EXAM template-캐글 모의고사

JobQueue는 무조건 싱글스레드 환경에서 돌아가게 구현하나요?

저도 이동이 안돼요.....ㅠㅠ