Taxi-v3에 대한 두 가지질문

Question

Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 observations 환경이라 그런 걸까요? 랜덤하게 목적지와 손님의 위치가 설정되더라도 과업을 어느정도 완벽히 수행하게 되는 원리는 어떤 특정 지점에 대해서 손님의 위치까지의 경로 계획을 위한 행동 가치에 대한 훈련과 그 손님의 위치에서 목적지를 향한 경로 계획에 대해서의 가치 훈련을 수행 했기 때문으로 보는 것이 맞을까요?

YoungJea Oh · Answer

맞습니다 . Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 환경이 그렇게 구성되어 있기 때문입니다. Taxi 환경은 fully observable MDP 로 설계되어 있어서 에이전트는 매 시점에 완전한 상태(state) 를 관측할 수 있습니다: 현재 택시의 위치 손님의 위치 목적지의 위치 이 정보가 observation에 포함되기 때문에, 에이전트는 매번 "내가 손님을 태우러 가야 하는지 / 이미 태웠는지 / 목적지까지 가야 하는지"를 판단할 수 있습니다. 좋은 질문 감사합니다.