MA-POCA 알고리즘 응용 질문

Question

EscapeRoom 환경에서 MA-POCA 쓸 때 actor는 에이전트가 개별적으로 사용하는 것으로 설계가 되어 있는데요. 유니티 상에서 에이전트들은 셋이 다 똑같이 생겨서 구분이 안되어 있는데, 매 에피소드마다 파이썬에서 부여되는 에이전트 id는 유니티 상에서 만들어둔 에이전트와 항상 같은 object로 매칭되는 것인지 궁금합니다. 코드를 응용해보려고 하는데 엑터 셋의 역할고정이 가능할지 궁금해서요!

또 한 에피소드에서 어떤 에이전트는 trap에 빠지고 어떤 에이전트는 살아남은 상태에서 에피소드가 종료될텐데.. 그럼 그 다음 에피소드에서는 그것과 관계없이 언제나 에이전트 셋 다 리셋되는 건지, trap에 빠진 에이전트만 리셋되는 건지도 궁금합니다.

kyushik · Answer

안녕하세요!! EscapeRoom 코드에서는 Unity 씬에 배치된 각 Agent 오브젝트가 계속 재사용되므로, id는 같은 object에 매칭되었던 것으로 기억합니다! 단, 엑터가 역할이 고정되면 모든 에이전트가 동일 목표를 수행한다기 보다는 각각 다른 역할이 생기면서 보상 설정이나 멀티 에이전트 설정 등에서 다른 방식을 사용해야 할 것으로 생각합니다! 그리고 질문주신 2번째 내용을 설명드리자면 우선적으로 trap에 빠진 Agent는 그 즉시 전체 리셋되는 게 아니라 해당 Agent만 비활성화됩니다. 이후 episode가 끝나면 AgentList 전체가 다시 활성화되고, 위치/속도도 모두 초기화됩니다. 즉 다음 에피소드에서는 trap 여부와 관계없이 항상 세 Agent가 모두 리셋됩니다.