프로그래머를 위한 강화학습(저자 직강)

마르코프 결정과정(MDP)

보상값과 보상함수

2022-10-09T00:28:22.945Z

909

ljp4122

작성한 질문수 6

MRP에서 R을 보상 함수라고 책에 써 두셨는데, 여기서 보상함수를 구하는 방법은 확률의 기대값으로 계산한다고 하셨습니다.

확률의 기대값을 구하는 방법은 각각의 확률에 해당 상태의 기대값(주어지는 값, 임의의 값)을 곱한 것을 다 더해주면 된다고 하셨습니다.

그런데 MDP 설명하는 강의에서 계속 보상값이라는 표현을 쓰시는데 이 표현이 정확한 것인지 문의 합니다.

강화학습 인공신경망

답변 1

아인폴랩

2022-10-19T01:50:46.845Z

안녕하세요 ljp4122님.

수강해주셔서 감사합니다.

장기 출장으로 인해 답변이 늦어진 점 사과드립니다.

보상함수 = 기댓값 = 보상값 이라고 이해하시면 됩니다. 모두 에이전트가 정책에 따라서 특정 행동을 했을 때 받는 보상에 대한 기댓값입니다. 모두 하나의 타임스텝에 대해서 값이 계산됩니다. 이와 반대로 전체 타임스텝(에피소드)에 대한 보상에 대한 기댓값은 반환값(G)이 됩니다. MDP의 목적은 반환값을 최대로하는 정책을 찾는 것입니다.

감사합니다.

딥러닝 코드에 Batch Normalization 적용해보기 질문입니다

2023-03-02T07:16:11.333Z

597

딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 질문입니다

2023-03-01T10:48:03.784Z

496

Binary Classfication 딥러닝 적용해보기 질문입니다

2023-02-27T13:27:15.785Z

379

파이토치 device (gpu / cpu) 관련 질문드립니다.

2023-02-26T09:24:27.019Z

734

혹시 응용편은 어디서 볼 수 있을까요?

2023-02-25T12:48:43.683Z

494

karting asset

2023-02-22T08:56:29.060Z

460

using Unity.MLAgents; 오류

2023-02-21T06:14:13.610Z

664

Augmentation 질문

2023-02-16T14:41:55.347Z

414

cartpole_reinforce.ipynb 에러

2022-12-16T04:27:27.881Z

566

DQN 알고리즘 실행 결과

2022-12-14T11:24:26.393Z

383

DQN 코드 에러

2022-12-06T10:35:20.931Z

519

DQN 질문

2022-12-05T20:55:26.631Z

569

개발환경 구축관련 문의 드립니다.

2022-10-17T02:40:43.966Z

257

MDP질문

2022-10-10T06:22:44.856Z

232

MDP 질문

2022-10-09T00:50:05.085Z

292

MDP 상태가치 함수에서 기대값 관련 질문 드립니다.

2022-09-14T11:10:26.378Z

436

Reward 에 대한 질문 드립니다.

2022-07-09T10:02:39.986Z

263

ppo에서 exploration을 어떻게 하는지 궁금합니다.

2022-05-19T07:20:46.927Z

901

강의 외 질문입니다. Env 내부 action에 대한 질문입니다.

2022-03-01T07:19:59.610Z

329

episode중간에 weight나 모델을 저장하고싶습니다.

2022-02-28T13:22:22.435Z

965

action을 매 episode마다 출력하기위해서는 어떻게 해야하나요?

2022-02-26T10:58:49.087Z

233

MDP 행동가치함수에 대한 문의 입니다.

2021-08-10T03:41:02.913Z

423

TypeError: in user code: TypeError: Can not convert a NoneType into a Tensor or Operation.

2021-07-03T16:12:57.246Z

1090

cartpole_dqn 중 def train_mini_batch(self,Q):에서 Q[0,0,action]의 0,0의 의미는?

2021-06-30T14:17:38.273Z

218