강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

최규형님의 프로필 이미지
최규형

작성한 질문수

강화학습 입문에서 Deep Q-learning/Policy Gradient까지

실습 - Taxi 환경 설명 및 Q-learning 구현

Taxi-v3에 대한 두 가지질문

해결된 질문

작성

·

9

0

  1. Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 observations 환경이라 그런 걸까요?

  2. 랜덤하게 목적지와 손님의 위치가 설정되더라도 과업을 어느정도 완벽히 수행하게 되는 원리는 어떤 특정 지점에 대해서 손님의 위치까지의 경로 계획을 위한 행동 가치에 대한 훈련과 그 손님의 위치에서 목적지를 향한 경로 계획에 대해서의 가치 훈련을 수행 했기 때문으로 보는 것이 맞을까요?

답변 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
지식공유자

맞습니다 . Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 환경이 그렇게 구성되어 있기 때문입니다. Taxi 환경은 fully observable MDP로 설계되어 있어서 에이전트는 매 시점에 완전한 상태(state) 를 관측할 수 있습니다:

  • 현재 택시의 위치

  • 손님의 위치

  • 목적지의 위치

이 정보가 observation에 포함되기 때문에, 에이전트는 매번 "내가 손님을 태우러 가야 하는지 / 이미 태웠는지 / 목적지까지 가야 하는지"를 판단할 수 있습니다.
좋은 질문 감사합니다.

최규형님의 프로필 이미지
최규형

작성한 질문수

질문하기