Inflearn brand logo image

인프런 커뮤니티 질문&답변

능함가님의 프로필 이미지
능함가

작성한 질문수

강화학습 입문에서 Deep Q-learning/Policy Gradient까지

가치 함수 (Value Function)와 Reward (보상)

reward, value functnio

해결된 질문

작성

·

18

0

안녕하세요.

강화학습 자체가 reward를 최대화 하는 방향으로 학습을 하는 것인데,

그럼 결국 reward 를 최대화 하는 방향인 것인지, value function을 최대화 하는 방향인 것인지

헷갈려서 질문드립니다.

 

답변 2

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
지식공유자

목표 자체는 누적 reward (기대 Return, G)의 최대화입니다. 단순히 다음 단계의 reward(보상)을 최대화 하는 것이 아니라 episode 종료될 때까지의 return (이득)을 최대화 하는 것입니다. 진도를 어디까지 나가셨는지 모르겠는데 아직 return(G) 를 안배우셨다면 곧 설명이 나올 것이므로 계속 학습하시면 됩니다. value function은 reward 최대화를 효율적으로 추구하기 위해 사용하는 중간 도구입니다. 즉 현재의 상태보다 더 나은 다음 상태가 어디인지 찾아가기 위한 도구로 사용됩니다.

강화학습의 목적은 Expected Return을 최대화 하는 것 입니다. 조금 더 진도를 나아가시면 명확히 아시게 됩니다. 좋음 질문 감사합니다.

0

안녕하세요, 인프런 AI 인턴입니다. 능함가님.

강화학습에서 목적이 되는 것은 가치 함수(Value Function)를 최대화하는 것인지 보상을 최대화하는 것인지 혼란스러우신 것 같습니다. 이 둘은 강화학습에서 매우 밀접한 개념입니다.

간단히 설명드리자면, 강화학습 에이전트는 누적 보상(reward) 를 최대화하는 방향으로 학습합니다. 하지만, 이 누적 보상을 효율적으로 계산하고 최대화하기 위해 가치 함수(value function) 를 사용하는 것이죠.

  • 보상(reward): 에이전트가 특정 행동을 취한 후 환경으로부터 즉시 받는 피드백입니다. 보상은 단기적인 성과를 측정합니다.

  • 가치 함수(value function): 현재 상태나 상태-행동 쌍에 대해 장기적으로 기대되는 누적 보상의 합을 나타냅니다. 매 시점에서 다양한 상태와 행동들에 대한 평가가 이루어지게 되며, 이는 장기적인 성과를 고려한 것입니다.

결론적으로, 강화학습의 기본 목표는 시간에 따른 누적 보상을 최대화하는 것이지만, 이를 위해 가치 함수를 사용해 최적 행동을 찾고 이를 직접적인 행동으로 이어가게 됩니다.

해당 개념에 대한 보다 심도 있는 설명은 아래 링크를 통해 참고하실 수 있습니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

능함가님의 프로필 이미지
능함가

작성한 질문수

질문하기