MDP 질문
266
작성한 질문수 6
MDP에서 상태가 변한다는 것은 원래 가지고 있던 상태 전이 매트릭스와 정책의 영향을 동시에 받는다는 것과 같다. (이해완료)
따라서 행동에 따른 정책과 상태 전이 확률의 기댓값(평균)을 구함으로서 정책을 고려한 상태 전이 매트릭스를 구할 수 있다(이해 못함)
-> 두번째 문장에서 기댓값을 구해서 상태전이 매트릭스를 구할 수 있다는 부분이 이해가 잘 안됩니다.
답변 1
0
안녕하세요 ljp4122님.
상태 전이 매트릭스는 환경(Environment)에서 상태(State)가 변할 수 있는 조건부 확률을 매트릭스 형태로 나타낸 것입니다. MDP에서는 정책이라는 새로운 확률이 추가되었기 때문에 MRP와는 달리 정책을 고려한 새로운 상태전이 매트릭스를 만들어야 합니다. 즉, 하나의 행동을 할 때 S에서 S'로 상태가 변할 확률이 P뿐만이 아니라 𝝿까지 고려해야 합니다.
이 문제를 해결하기 위해 위 식과 같이 행동에 따른 정책(𝝿)과 상태 전이 확률(P)의 기댓값(평균)을 구함으로써 정책을 고려한 상태 전이 매트릭스를 구할 수 있습니다. 여기에서 기대값은 평균의 개념을 가지고 있습니다.
감사합니다.
딥러닝 코드에 Batch Normalization 적용해보기 질문입니다
0
580
1
딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 질문입니다
0
478
1
Binary Classfication 딥러닝 적용해보기 질문입니다
0
366
1
파이토치 device (gpu / cpu) 관련 질문드립니다.
0
711
1
혹시 응용편은 어디서 볼 수 있을까요?
0
471
1
karting asset
0
434
2
using Unity.MLAgents; 오류
0
641
1
Augmentation 질문
1
389
1
cartpole_reinforce.ipynb 에러
0
530
2
DQN 알고리즘 실행 결과
0
357
1
DQN 코드 에러
0
494
1
DQN 질문
0
546
1
개발환경 구축관련 문의 드립니다.
0
230
1
MDP질문
0
207
1
보상값과 보상함수
0
876
1
MDP 상태가치 함수에서 기대값 관련 질문 드립니다.
0
412
1
Reward 에 대한 질문 드립니다.
1
237
1
ppo에서 exploration을 어떻게 하는지 궁금합니다.
0
881
2
강의 외 질문입니다. Env 내부 action에 대한 질문입니다.
0
301
1
episode중간에 weight나 모델을 저장하고싶습니다.
0
941
2
action을 매 episode마다 출력하기위해서는 어떻게 해야하나요?
0
227
1
MDP 행동가치함수에 대한 문의 입니다.
0
404
1
TypeError: in user code: TypeError: Can not convert a NoneType into a Tensor or Operation.
0
1046
5
cartpole_dqn 중 def train_mini_batch(self,Q):에서 Q[0,0,action]의 0,0의 의미는?
0
201
1





