inflearn logo
강의

講義

知識共有

強化学習入門からDeep Q-learning/Policy Gradientまで

価値関数の適用事例

stochastic state 관련

69

etank34721

投稿した質問数 18

0

안녕하세요.

약 4분 경, value function 을 구할때

stochastic 하게 state가 결정된다면, 각 state가 결정될 확률값은 고려하지 않아도 되는건가요?

예를들면, class1에서 class2로 갈 확률과 facebook 으로 갈 확률이 0.5 인데, 그렇다면 각 첫번째 단계에서 reward x 확률값(0.5) 이런식으로 고려하지는 않아도 되는것인지 질문드립니다.

 

감사합니다.

python 딥러닝 강화학습 pytorch

回答 2

0

YoungJea Oh

네, stochastic하게 state가 정해질 때는 각 state로 갈 확률을 반드시 고려해서 기대값 형태로 value function을 계산합니다. 따라서 질문 주신 것처럼 단순히 reward만 보는 것이 아니라, 각 전이 확률을 고려해야 올바른 value function이 됩니다. “reward × 확률”이 바로 기대값 계산 과정의 일부입니다.

좋은 질문 감사합니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다.

능함가님, 강화학습에서 Stochastic 환경을 고려할 때 각 상태 전이의 확률을 어떻게 사용하는지에 대해 좋은 질문을 주셨습니다.

강화학습에서는 상태 가치 함수(value function)를 계산할 때, 각 상태에서 가능성이 있는 액션들이 미래에 미칠 영향을 평가합니다. 이 평가를 할 때 상태 전이 확률을 무시하지 않고, 오히려 매우 중요한 요소로 사용합니다.

구체적으로:

  • 상태 가치 함수(V(s))는 특정 상태 s에서 시작하여 최적으로 행동할 경우 받을 수 있는 기대되는 보상의 총합입니다.
  • 여기서 각 액션에 대한 상태 전이 확률(액션을 수행했을 때 다른 상태로 전이될 확률)을 반영하여 계산하게 됩니다. 즉, 어떤 액션을 취했을 때 특정한 상태로 전이될 확률과 해당 상태에서의 보상까지 모두 고려해야 합니다.
  • 따라서, 예를 들어, 질문하신 경우처럼 class 1에서 class 2로 갈 확률과 Facebook으로 갈 확률이 각각 0.5라면, 각 경우에 대한 보상을 각각의 확률로 가중합한 기대 값을 계산하게 됩니다.

따라서, 가치 함수 계산 시에는 “reward x 확률값”과 같은 형태로 확률 가중치를 반드시 고려해야 합니다. 이는 강화학습의 핵심적인 부분 중 하나입니다.

관련된 질문과 답변을 찾을 수 있었는데, 이 유사한 질문링크가 여러분의 이해를 돕는 데 큰 도움이 될 것입니다: “전이확률 / stochastic env.” (Transition Probability in Stochastic Environment).

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

소리가 겹쳐서 들려요

0

21

2

전 강의와 전혀 이어지지가 않음

0

30

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

38

3

강화학습저장 및 로드

0

57

1

16:07슬라이드에소 헷갈리는 부분이 있습니다

0

65

2

미분 결과가 왜 저렇게 나오는지 궁금합니다.

0

73

1

Taxi-v3에 대한 두 가지질문

0

51

1

그림에 대해서 잘 이해가 안됩니다.

0

55

1

reward, value functnio

0

67

2

전이확률 / stochastic env.

0

65

1

확률론적 policy 관련

0

47

1

model based

0

56

1

time sequential data 관련

0

57

2

Deep Q-Learning algorithm에 대하여

0

85

2

Cartpole 환경 이해 및 시각화 관련 문의

0

111

3

실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax

0

108

1

실습에러 TImelimit

0

151

2

실습

0

267

6

강의자료

0

131

2

강의 36강에서의 질문

0

179

1

Pytorch 설치 GPU 버전으로 다운해도 되나요?

0

354

2

정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제

0

219

1

반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.

0

341

2

강의코드 110_basic_operations_for ... 코드 실행 시 문제

1

311

1