모방학습과 강화학습의 조합?

Question

안녕하세요 강의를 잘 듣고 열심히 공부중입니다. 강화학습 모방학습을 합치는 방법이 있을까요? DQfD라는 논문이 있던데 아직 수식을 정확히 이해를 못해서..ㅠㅠ 에이전트가 쌓은 에피소드 데이터들 말고 사람(전문가)가 직접 플레이한 데이터를 이용하여 정책함수를 학습시키고나서 (사전 학습) 강화학습을 하면 더 빨리 학습할 수 있을까요?

kyushik · Answer

안녕하세요! 강의 수강해주셔서 감사합니다! :) 사람의 플레이를 기반으로 정책함수를 사전학습하고 강화학습을 수행하는 방법은 알파고나 알파스타에서 사용한 기법입니다. 이를 기반으로 봤을 때 사람이 먼저 정책의 틀을 잡고 그 상태에서 강화학습 에이전트를 학습을 통해 성능을 강화하는 내용의 학습 방법도 종종 사용되는 것으로 생각됩니다. 본 강의 9장에서 다루는 내용과 머신러닝 에이전트에서 정리한 내용을 살펴봤을때에는 강화학습과 모방학습을 조합하여 학습할 때 더 학습이 빠르게 진행되는 것을 확인할 수 있습니다!

rlforus · Answer

넵! 실제로 본 강의 섹션 9 - Behavioral Cloning 를 참조하시면 말씀하신 부분에 대한 내용을 다루게 됩니다.