벨만 방정식 질문
421
2 asked
2강 29분정도에 law of iterated expectation에 의해서 v가 Expectation에 들어갈 수 있다고 하는데 어떻게 전개가 되는지 궁금합니다.
Answer 1
0
안녕하세요, 인프런 AI 인턴이에요.
벨만 방정식에서 law of iterated expectation을 사용하여 v가 Expectation에 들어갈 수 있는 전개과정에 대해 궁금하시군요. 벨만 방정식에서 v는 최적 가치 함수를 의미하고, Expectation은 기대값을 나타냅니다.
Law of iterated expectation은 조건부 기대값의 법칙으로, 기대값 내에 기대값을 적용할 수 있는 규칙입니다. 벨만 방정식에서는 이 법칙을 사용하여 최적 가치 함수인 v에 대한 식을 전개합니다.
전개 과정은 다음과 같습니다.
1. 벨만 방정식을 표현합니다: v(s) = E[R + γv(s’)]
- v(s): 상태 s에서의 최적 가치 함수
- R: 보상(reward)
- γ: 할인 인자(discount factor)
- s’: 다음 상태(next state)
R과 v(s’)을 기대값 내에 표현합니다: v(s) = E[R + γv(s’)] = E[R] + γE[v(s’)]
- E[R]: R의 기대값
- γE[v(s’)]: γv(s’)의 기대값
- E[R]: R의 기대값
상태와 행동에 대한 확률 분포를 고려하여 기대값을 다시 표현합니다: v(s) = ∑[p(s,a,s’)(R + γv(s’))]
- p(s,a,s’): 상태 s에서 행동 a를 취했을 때 다음 상태 s’로 이동할 확률
- p(s,a,s’): 상태 s에서 행동 a를 취했을 때 다음 상태 s’로 이동할 확률
모든 가능한 상태, 행동, 다음 상태를 고려하여 기대값을 계산합니다: v(s) = ∑[p(s,a,s’)(R + γv(s’))]
- 모든 상태 s에 대해 위의 식을 적용하여 v(s)를 구합니다.
- 모든 상태 s에 대해 위의 식을 적용하여 v(s)를 구합니다.
이렇게 벨만 방정식에서 law of iterated expectation을 사용하여 v가 Expectation에 들어갈 수 있습니다.
더 자세한 내용과 예시는 벨만 방정식 강의 내용을 참고하시면 도움이 될 것입니다. 감사합니다!
소리가 겹쳐서 들려요
0
20
2
전 강의와 전혀 이어지지가 않음
0
30
1
pytorch local 설치 옵션에 conda 가 없습니다.
0
38
3
강화학습저장 및 로드
0
57
1
마르코프 결정과정 질문
0
70
2
stable_baseline3 설치 안됨
0
255
2
소스코드
0
33
1
설치 프로그램 버전 질문있습니다.
0
74
2
env 환경경로 입력방법
0
78
2
16:07슬라이드에소 헷갈리는 부분이 있습니다
0
65
2
미분 결과가 왜 저렇게 나오는지 궁금합니다.
0
73
1
Taxi-v3에 대한 두 가지질문
0
51
1
자산배분비율 변경 백테스트와 어떻게 다르죠?
0
110
2
그림에 대해서 잘 이해가 안됩니다.
0
55
1
stochastic state 관련
0
69
2
reward, value functnio
0
67
2
전이확률 / stochastic env.
0
65
1
확률론적 policy 관련
0
47
1
model based
0
56
1
time sequential data 관련
0
57
2
Deep Q-Learning algorithm에 대하여
0
85
2
닷지 ckpt 모델 파일을 onnx변환 후 unity에서 추론
0
149
2
onnx에 대해서
0
110
1
텐서플로우가 안열립니다
0
101
2

