해결된 질문
작성
·
9
답변 1
0
맞습니다 . Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 환경이 그렇게 구성되어 있기 때문입니다. Taxi 환경은 fully observable MDP로 설계되어 있어서 에이전트는 매 시점에 완전한 상태(state) 를 관측할 수 있습니다:
현재 택시의 위치
손님의 위치
목적지의 위치
이 정보가 observation에 포함되기 때문에, 에이전트는 매번 "내가 손님을 태우러 가야 하는지 / 이미 태웠는지 / 목적지까지 가야 하는지"를 판단할 수 있습니다.
좋은 질문 감사합니다.