Taxi-v3에 대한 두 가지질문
51
投稿した質問数 8
Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 observations 환경이라 그런 걸까요?
랜덤하게 목적지와 손님의 위치가 설정되더라도 과업을 어느정도 완벽히 수행하게 되는 원리는 어떤 특정 지점에 대해서 손님의 위치까지의 경로 계획을 위한 행동 가치에 대한 훈련과 그 손님의 위치에서 목적지를 향한 경로 계획에 대해서의 가치 훈련을 수행 했기 때문으로 보는 것이 맞을까요?
回答 1
0
맞습니다 . Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 환경이 그렇게 구성되어 있기 때문입니다. Taxi 환경은 fully observable MDP로 설계되어 있어서 에이전트는 매 시점에 완전한 상태(state) 를 관측할 수 있습니다:
현재 택시의 위치
손님의 위치
목적지의 위치
이 정보가 observation에 포함되기 때문에, 에이전트는 매번 "내가 손님을 태우러 가야 하는지 / 이미 태웠는지 / 목적지까지 가야 하는지"를 판단할 수 있습니다.
좋은 질문 감사합니다.
소리가 겹쳐서 들려요
0
19
2
전 강의와 전혀 이어지지가 않음
0
30
1
pytorch local 설치 옵션에 conda 가 없습니다.
0
38
3
강화학습저장 및 로드
0
57
1
16:07슬라이드에소 헷갈리는 부분이 있습니다
0
65
2
미분 결과가 왜 저렇게 나오는지 궁금합니다.
0
73
1
그림에 대해서 잘 이해가 안됩니다.
0
55
1
stochastic state 관련
0
69
2
reward, value functnio
0
67
2
전이확률 / stochastic env.
0
65
1
확률론적 policy 관련
0
47
1
model based
0
56
1
time sequential data 관련
0
57
2
Deep Q-Learning algorithm에 대하여
0
85
2
Cartpole 환경 이해 및 시각화 관련 문의
0
111
3
실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax
0
108
1
실습에러 TImelimit
0
151
2
실습
0
266
6
강의자료
0
131
2
강의 36강에서의 질문
0
179
1
Pytorch 설치 GPU 버전으로 다운해도 되나요?
0
354
2
정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제
0
219
1
반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.
0
341
2
강의코드 110_basic_operations_for ... 코드 실행 시 문제
1
311
1

