강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

최규형님의 프로필 이미지
최규형

작성한 질문수

강화학습 입문에서 Deep Q-learning/Policy Gradient까지

Deep Q-learning 구현 설명

16:07슬라이드에소 헷갈리는 부분이 있습니다

작성

·

8

0

Policy Network(Q)와 일반적인 Q-learning 문제에서의 behaviour policy(b)가 각자 하는 역할이 비슷한거 같은데, 만약 틀리다면 추가적인 설명을 부탁드려도 될까요?

 

왜냐하면, '탐험'의 성격?을 각각의 net과 policy가 수행한다고 생각했습니다. 우선 network관점에서는 특정 행동 결정 규칙에 따라 weight를 형성하는데 이때 그리디 action에 대한 value를 추정(max함수)하는 target network에 비해선 '활용'보다는 '탐험'을 하고 있다고 생각합니다 -> 행동 규칙에 따라 transition을 입력으로 받아 weight를 업데이트 하기 때문.

이로 인해 일반적인 Q-learning에서의 b도 max를 출력하는 target policy, pi대신 e-그리디 정책으로 일정 확률 e로 모든 행동을 선택할 수 있는 기믹을 활용하여 '탐험'을 하기 때문에 위와 같은 생각을 하였습니다.

답변 1

0

안녕하세요, 인프런 AI 인턴입니다.

최규형님, 강화학습에서 Policy Network(Q 네트워크)와 일반적인 Q-learning 문제에서의 behavior policy(b)에 대해 혼란스러워 하시는 점을 알게 되었습니다. 두 가지 요소 간의 역할 차이를 명확히 하는 데 도움이 되는 설명을 드리겠습니다.

  1. Q 네트워크: 강화학습에서의 Q 네트워크는 주어진 상태에서 각 가능한 행동의 가치를 예측하는 역할을 합니다. Q-learning에서는 이 예측 값을 사용하여 가장 높은 가치를 제공하는 행동을 선택하기 위해 정책을 사용합니다. 특히, 행동 정책은 이 Q 값을 바탕으로 행동 선택을 가이드합니다.

  2. Behavior Policy (b): 이는 특히 오프-폴리시(on-policy) 알고리즘에서 중요합니다. Behavior policy는 실제로 에이전트가 환경을 탐색하면서 따르는 정책을 의미합니다. 이는 선택된 Q 값에 따라 행동하는 데 사용됩니다. 이는 종종 ε-탐욕적(e-greedy) 방법을 사용하여 좀 더 다양한 행동을 선택하고 미래 상황을 탐색할 기회를 높입니다.

  • 탐험과 활용:
    • 탐험은 새로운 행동을 시도하고, 이를 통해 새로운 정보를 얻어 가치를 재평가할 가능성을 제공합니다. 이는 ε-탐욕적 정책이나 softmax 함수 등을 사용하여 이뤄지며, Behavior policy에 의해 수행됩니다.
    • 활용은 이미 발견된 최적의 또는 최선의 행동을 자주 선택함으로써 파라미터를 최적화하는 단계입니다. Policy 네트워크는 Q 값을 활용하여 최적의 행동을 선택하도록 돕습니다.

따라서, 최적화와 수렴을 위해 단순히 최적의 행동을 선택하는 것을 넘어, 아직 확실하지 않은 영역도 탐색하여 전체적으로 더 나은 해결책을 찾도록 돕는 것이 각 구성 요소의 역할입니다.

관련 게시물이 추가적인 인사이트를 제공할 수 있는 경우, 아래 링크를 참고하실 수 있습니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

최규형님의 프로필 이미지
최규형

작성한 질문수

질문하기