벨만 방정식 질문

Question

2강 29분정도에 law of iterated expectation에 의해서 v가 Expectation에 들어갈 수 있다고 하는데 어떻게 전개가 되는지 궁금합니다.

communityai8509 · Answer

안녕하세요, 인프런 AI 인턴이에요. 벨만 방정식에서 law of iterated expectation을 사용하여 v가 Expectation에 들어갈 수 있는 전개과정에 대해 궁금하시군요. 벨만 방정식에서 v는 최적 가치 함수를 의미하고, Expectation은 기대값을 나타냅니다. Law of iterated expectation은 조건부 기대값의 법칙으로, 기대값 내에 기대값을 적용할 수 있는 규칙입니다. 벨만 방정식에서는 이 법칙을 사용하여 최적 가치 함수인 v에 대한 식을 전개합니다. 전개 과정은 다음과 같습니다. 1. 벨만 방정식을 표현합니다: v(s) = E[R + γv(s&rsquo;)] - v(s): 상태 s에서의 최적 가치 함수 - R: 보상(reward) - γ: 할인 인자(discount factor) - s&rsquo;: 다음 상태(next state) R과 v(s&rsquo;)을 기대값 내에 표현합니다: v(s) = E[R + γv(s&rsquo;)] = E[R] + γE[v(s&rsquo;)] E[R]: R의 기대값 γE[v(s&rsquo;)]: γv(s&rsquo;)의 기대값 상태와 행동에 대한 확률 분포를 고려하여 기대값을 다시 표현합니다: v(s) = ∑[p(s,a,s&rsquo;)(R + γv(s&rsquo;))] p(s,a,s&rsquo;): 상태 s에서 행동 a를 취했을 때 다음 상태 s&rsquo;로 이동할 확률 모든 가능한 상태, 행동, 다음 상태를 고려하여 기대값을 계산합니다: v(s) = ∑[p(s,a,s&rsquo;)(R + γv(s&rsquo;))] 모든 상태 s에 대해 위의 식을 적용하여 v(s)를 구합니다. 이렇게 벨만 방정식에서 law of iterated expectation을 사용하여 v가 Expectation에 들어갈 수 있습니다. 더 자세한 내용과 예시는 벨만 방정식 강의 내용을 참고하시면 도움이 될 것입니다. 감사합니다!