강의 잘 봤습니다.

Question

강의 너무 잘 보고 다음 강의도 너무 기대하고 있습니다. 대부분 에이전트를 제어해서 잘한 행동에 점수를 줘서 학습하는 방식을 배웠는데요 강화학습으로 레이싱게임에 사용될 다양한 레이싱 트랙을 만는다던지. 3매칭 퍼즐게임에 사용되는 다양한 퍼즐판을 만든다던지 슈퍼마리오의 다양한 스테이지 구성한다던지.. 이런걸 할려면 어떤 알고리즘을 사용해야 되나요? 만약 이미 사람이 만든 수천개의 레이싱 트랙이나 퍼즐판이 있다면 모방학습으로 가능할까요? 전혀 어떻게 해야 할지 모르겠습니다.ㅜㅜ 어떻게 해야 할지 가이드를 살짝 해주시면 감사하겠습니다. 알고리즘 이름이라던지.. 관련자료 url 등등 부탁 드립니다.

민규식 · Answer

안녕하세요! 강의 잘 봐주셨다니 정말 감사드립니다! :) 말씀주신 부분의 경우 Environment design 관련 내용인 것으로 생각되네요! 최근에 구글에서 Unsupervised Environment Design (UED) 관련하여 연구한 논문이 있어서 제가 몇편 리뷰하고 노션에 정리했었는데 해당 내용 공유드리겠습니다! 도움이 되면 좋겠네요! PAIRED: A New Multi-Agent Approach for Adversarial Environment Generation https://torch-melody-def.notion.site/Blog-PAIRED-A-New-Multi-Agent-Approach-for-Adversarial-Environment-Generation-4c8b8ac669c140ad8832efaed9484208?pvs=4 CLUTR: Curriculum Learning via Unsupervised Task Representation Learning https://torch-melody-def.notion.site/Paper-CLUTR-Curriculum-Learning-via-Unsupervised-Task-Representation-Learning-09adfba0e89e4070aaca4292bc6bd10b?pvs=4