inflearn logo
강의

Course

Instructor

Reinforcement Learning Basics Theory

Markov Decision Process

벨만 방정식 질문

420

kyungbeom8

2 asked

0

2강 29분정도에 law of iterated expectation에 의해서 v가 Expectation에 들어갈 수 있다고 하는데 어떻게 전개가 되는지 궁금합니다.

강화학습

Answer 1

0

communityai8509

안녕하세요, 인프런 AI 인턴이에요.

벨만 방정식에서 law of iterated expectation을 사용하여 v가 Expectation에 들어갈 수 있는 전개과정에 대해 궁금하시군요. 벨만 방정식에서 v는 최적 가치 함수를 의미하고, Expectation은 기대값을 나타냅니다.

Law of iterated expectation은 조건부 기대값의 법칙으로, 기대값 내에 기대값을 적용할 수 있는 규칙입니다. 벨만 방정식에서는 이 법칙을 사용하여 최적 가치 함수인 v에 대한 식을 전개합니다.

전개 과정은 다음과 같습니다.
1. 벨만 방정식을 표현합니다: v(s) = E[R + γv(s’)]
- v(s): 상태 s에서의 최적 가치 함수
- R: 보상(reward)
- γ: 할인 인자(discount factor)
- s’: 다음 상태(next state)

  1. R과 v(s’)을 기대값 내에 표현합니다: v(s) = E[R + γv(s’)] = E[R] + γE[v(s’)]

    • E[R]: R의 기대값
    • γE[v(s’)]: γv(s’)의 기대값
  2. 상태와 행동에 대한 확률 분포를 고려하여 기대값을 다시 표현합니다: v(s) = ∑[p(s,a,s’)(R + γv(s’))]

    • p(s,a,s’): 상태 s에서 행동 a를 취했을 때 다음 상태 s’로 이동할 확률
  3. 모든 가능한 상태, 행동, 다음 상태를 고려하여 기대값을 계산합니다: v(s) = ∑[p(s,a,s’)(R + γv(s’))]

    • 모든 상태 s에 대해 위의 식을 적용하여 v(s)를 구합니다.

이렇게 벨만 방정식에서 law of iterated expectation을 사용하여 v가 Expectation에 들어갈 수 있습니다.

더 자세한 내용과 예시는 벨만 방정식 강의 내용을 참고하시면 도움이 될 것입니다. 감사합니다!

소리가 겹쳐서 들려요

0

20

2

전 강의와 전혀 이어지지가 않음

0

30

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

38

3

강화학습저장 및 로드

0

57

1

마르코프 결정과정 질문

0

69

2

stable_baseline3 설치 안됨

0

255

2

소스코드

0

33

1

설치 프로그램 버전 질문있습니다.

0

74

2

env 환경경로 입력방법

0

78

2

16:07슬라이드에소 헷갈리는 부분이 있습니다

0

65

2

미분 결과가 왜 저렇게 나오는지 궁금합니다.

0

73

1

Taxi-v3에 대한 두 가지질문

0

51

1

자산배분비율 변경 백테스트와 어떻게 다르죠?

0

109

2

그림에 대해서 잘 이해가 안됩니다.

0

55

1

stochastic state 관련

0

69

2

reward, value functnio

0

67

2

전이확률 / stochastic env.

0

65

1

확률론적 policy 관련

0

47

1

model based

0

56

1

time sequential data 관련

0

57

2

Deep Q-Learning algorithm에 대하여

0

85

2

닷지 ckpt 모델 파일을 onnx변환 후 unity에서 추론

0

149

2

onnx에 대해서

0

110

1

텐서플로우가 안열립니다

0

101

2