작성
·
16
답변 2
0
네, stochastic하게 state가 정해질 때는 각 state로 갈 확률을 반드시 고려해서 기대값 형태로 value function을 계산합니다. 따라서 질문 주신 것처럼 단순히 reward만 보는 것이 아니라, 각 전이 확률을 고려해야 올바른 value function이 됩니다. “reward × 확률”이 바로 기대값 계산 과정의 일부입니다.
좋은 질문 감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
능함가님, 강화학습에서 Stochastic 환경을 고려할 때 각 상태 전이의 확률을 어떻게 사용하는지에 대해 좋은 질문을 주셨습니다.
강화학습에서는 상태 가치 함수(value function)를 계산할 때, 각 상태에서 가능성이 있는 액션들이 미래에 미칠 영향을 평가합니다. 이 평가를 할 때 상태 전이 확률을 무시하지 않고, 오히려 매우 중요한 요소로 사용합니다.
구체적으로:
따라서, 가치 함수 계산 시에는 “reward x 확률값”과 같은 형태로 확률 가중치를 반드시 고려해야 합니다. 이는 강화학습의 핵심적인 부분 중 하나입니다.
관련된 질문과 답변을 찾을 수 있었는데, 이 유사한 질문링크가 여러분의 이해를 돕는 데 큰 도움이 될 것입니다: “전이확률 / stochastic env.” (Transition Probability in Stochastic Environment).
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.