MDP 상태가치 함수에서 기대값 관련 질문 드립니다.

プログラマーのための強化学習(著者直講)

マルコフ決定過程（MDP）

2022-09-14T11:10:26.378Z

412

Kevin Ryu

投稿した質問数 2

안녕하세요, 선생님

MDP 상태가치 함수에서 정책의 기대값 식이 이해가 잘 안갑니다. 기대값은 앞강의에서 알려주신 바와 같이 gain x 확률의 총합으로 정의되는데 이 정책의 기대값은 조건부 확률 pi의 합인데 어떻게 기대값이 되는건가요?

인공신경망 강화학습

回答 1

multicoreit

2022-09-15T08:44:25.621Z

안녕하세요 Kevin Ryu님.

수강해주셔서 감사합니다.

기대값은 위 그림에서와 같이 주사위가 가질 수 있는 값(보상)과 그 값에 대한 확률(정책)을 곱해서 합산하면 주사위 값의 평균과 같습니다. 즉 확률의 기댓값은 사건의 값의 평균을 구하는 것과 같습니다.

MDP에서 보상함수(R)를 계산하는 것 또한 주사위의 기댓값을 계산하는 것과 동일한 개념입니다. 주사위의 숫자는 보상과 같고, 그 숫자가 나올 확률은 정책과 같습니다.

감사합니다.

딥러닝 코드에 Batch Normalization 적용해보기 질문입니다

2023-03-02T07:16:11.333Z

580

딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 질문입니다

2023-03-01T10:48:03.784Z

478

Binary Classfication 딥러닝 적용해보기 질문입니다

2023-02-27T13:27:15.785Z

366

파이토치 device (gpu / cpu) 관련 질문드립니다.

2023-02-26T09:24:27.019Z

711

혹시 응용편은 어디서 볼 수 있을까요?

2023-02-25T12:48:43.683Z

471

karting asset

2023-02-22T08:56:29.060Z

434

using Unity.MLAgents; 오류

2023-02-21T06:14:13.610Z

641

Augmentation 질문

2023-02-16T14:41:55.347Z

390

cartpole_reinforce.ipynb 에러

2022-12-16T04:27:27.881Z

530

DQN 알고리즘 실행 결과

2022-12-14T11:24:26.393Z

357

DQN 코드 에러

2022-12-06T10:35:20.931Z

494

DQN 질문

2022-12-05T20:55:26.631Z

546

개발환경 구축관련 문의 드립니다.

2022-10-17T02:40:43.966Z

230

MDP질문

2022-10-10T06:22:44.856Z

207

MDP 질문

2022-10-09T00:50:05.085Z

266

보상값과 보상함수

2022-10-09T00:28:22.945Z

876

Reward 에 대한 질문 드립니다.

2022-07-09T10:02:39.986Z

237

ppo에서 exploration을 어떻게 하는지 궁금합니다.

2022-05-19T07:20:46.927Z

881

강의 외 질문입니다. Env 내부 action에 대한 질문입니다.

2022-03-01T07:19:59.610Z

301

episode중간에 weight나 모델을 저장하고싶습니다.

2022-02-28T13:22:22.435Z

941

action을 매 episode마다 출력하기위해서는 어떻게 해야하나요?

2022-02-26T10:58:49.087Z

227

MDP 행동가치함수에 대한 문의 입니다.

2021-08-10T03:41:02.913Z

404

TypeError: in user code: TypeError: Can not convert a NoneType into a Tensor or Operation.

2021-07-03T16:12:57.246Z

1046

cartpole_dqn 중 def train_mini_batch(self,Q):에서 Q[0,0,action]의 0,0의 의미는?

2021-06-30T14:17:38.273Z

201