MDP질문
207
작성한 질문수 6
교재에서 v(s)와 vㅠ(s)가 같은 값이라고 하셨는데, 그러면 최적 상태 가치 함수는 어떻게 나오는 건가요?
어차피 v(s)는 vㅠ(s)와 같은 값일 텐테 어떻게 값이 변화되는 건지 모르겠습니다.
답변 1
0
안녕하세요 ljp4122님.
v(s)와 v𝝿(s)는 같은 의미를 가지고 있는 값입니다. MRP에서는 정책이 없기 때문에 v(s)를 사용하구요 MDP에서는 정책의 개념이 추가되었기 때문에 정책을 고려한 상태가치함수 v𝝿(s)를 사용하고 있습니다. 모두 해당 상태가 얼마나 가치있는 지를 평가하는 것에서는 동일합니다.
v*(s)는 최적 상태 가치 함수입니다. 여러 가지 정책을 따르는 상태 가치 함수가 있을 때, 가치를 최대로 하는 정책을 따르는 상태 가치 함수를 말합니다. q*(s,a)는 다양한 정책을 따르는 행동 가치 함수 중에서 가치를 최대로 하는 정책을 따르는 행동 가치 함수를 말합니다.
MDP에서 최적 행동 가치 함수를 안다는 것은 가장 효율적인 행동을 선택할 수 있는 정책을 안다는 것과 같습니다. 따라서 최적 행동 가치 함수를 찾아낼 수 있다면 MDP 문제를 해결할 수 있다. 이를 계산하는 다양한 알고리즘을 강의에서 확인하실 수 있습니다.
감사합니다.
딥러닝 코드에 Batch Normalization 적용해보기 질문입니다
0
580
1
딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 질문입니다
0
478
1
Binary Classfication 딥러닝 적용해보기 질문입니다
0
366
1
파이토치 device (gpu / cpu) 관련 질문드립니다.
0
711
1
혹시 응용편은 어디서 볼 수 있을까요?
0
471
1
karting asset
0
434
2
using Unity.MLAgents; 오류
0
641
1
Augmentation 질문
1
390
1
cartpole_reinforce.ipynb 에러
0
530
2
DQN 알고리즘 실행 결과
0
357
1
DQN 코드 에러
0
494
1
DQN 질문
0
546
1
개발환경 구축관련 문의 드립니다.
0
230
1
MDP 질문
0
266
1
보상값과 보상함수
0
876
1
MDP 상태가치 함수에서 기대값 관련 질문 드립니다.
0
412
1
Reward 에 대한 질문 드립니다.
1
237
1
ppo에서 exploration을 어떻게 하는지 궁금합니다.
0
881
2
강의 외 질문입니다. Env 내부 action에 대한 질문입니다.
0
301
1
episode중간에 weight나 모델을 저장하고싶습니다.
0
941
2
action을 매 episode마다 출력하기위해서는 어떻게 해야하나요?
0
227
1
MDP 행동가치함수에 대한 문의 입니다.
0
404
1
TypeError: in user code: TypeError: Can not convert a NoneType into a Tensor or Operation.
0
1046
5
cartpole_dqn 중 def train_mini_batch(self,Q):에서 Q[0,0,action]의 0,0의 의미는?
0
201
1





