inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

강화학습 올인원: 기초, 최신 알고리즘, 실무 활용까지

마르코프 결정과정

마르코프 결정과정 질문

68

최승무

작성한 질문수 2

0

안녕하세요. 강의 정말 잘 듣고 있습니다. 질문이 있어 글 남겨봅니다.

 

  1. 행동가치함수는 그 상태에서 행동을 통해 즉시보상을 얻는 것이고, 상태가치함수는 그 상태에서 정책을 쭉 따라가면서 가치함수를 계산한다는 제 이해가 맞을까요?

 

  1. 상태 가치가 제일 높은 것을 선택하는 것이 최적 정책이고, 최적 정책을 만들기 위해서는 각 상태에서 결정적 최적정책을 통해 최적행동가치함수의 값이 가장 큰 행동을 선택한다는 제 이해가 맞을까요?

좋은 하루 되시길 바랍니다.

python 인공신경망 강화학습 fine-tuning 최적화이론

답변 2

0

멀티코어

1. 상태가치함수 vs 행동가치함수

이해하신 맥락이 기본적으로 맞습니다. 두 함수의 차이는 '지금 당장 어떤 행동을 할 것인가'에 대한 결정권이 누구에게 있느냐의 차이입니다.

  • 상태가치함수 (State Value Function, V(s)): 특정 상태 s에 있을 때, 이미 정해진 정책 p를 끝까지 따랐을 경우 기대되는 보상의 총합(Return)입니다. 즉, "이 상태 자체가 얼마나 좋은가?"를 나타냅니다.

  • 행동가치함수 (Action Value Function, Q(s, a)): 상태 s에서 특정 행동 a를 일단 수행한 후, 그다음부터 정책 pi를 따랐을 경우의 기대 보상입니다. 즉, "이 상태에서 이 행동을 하는 것이 얼마나 좋은가?"를 나타냅니다.

[핵심 차이] 질문하신 "즉시 보상을 얻는 것"이라는 표현은 Q(s, a)의 시작점인 행동 a에 집중하신 것으로 보입니다. 정확히는 '즉시 보상 + 그다음 상태부터의 가치'를 합산한 것이 Q함수입니다.

 

2. 최적 정책과 최적 가치함수의 관계

이 부분 역시 완벽하게 이해하고 계십니다. 이를 강화학습의 벨만 최적 방정식(Bellman Optimality Equation) 관점에서 요약하면 다음과 같습니다.

  • 최적 정책(p*)의 목표: 모든 상태에서 상태 가치(V)를 최대화하는 행동을 선택하는 것입니다.

결정적 최적 정책 (Deterministic Optimal Policy): 각 상태에서 여러 행동 중 최적 행동가치함수 Q*(s, a) 값이 가장 큰 행동을 1의 확률로 선택하는 것입니다.

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 최승무님.

강화학습과 마르코프 결정과정(MDP)에 대해 심도 깊게 탐구하고 계시는군요! 질문하신 내용에 대한 설명과 유사한 답변을 참고할 수 있는 링크를 몇 가지 소개해 드리겠습니다.

  1. 행동가치함수와 상태가치함수에 대한 이해:

    • 행동가치함수(Q)는 특정 상태에서 어떤 행동을 선택할 때 기대되는 총 보상입니다. 반면, 상태가치함수(V)는 특정 상태에서 시작하여 정책을 따른 경우의 기대되는 총 보상입니다.
    • 즉시 보상뿐만 아니라, 이후의 기대되는 보상까지 합산하여 값을 계산하는 함수입니다.
  2. 최적 정책에 대한 이해:

    • 최적 정책은 각 상태에서 가능한 행동 중, 해당 행동을 통해 얻을 수 있는 최댓값을 추구하는 행동을 선택하는 것입니다.
    • 상태가치함수를 기반으로 상태에서 가장 높은 가치를 선택하는 것도 동일한 개념으로 볼 수 있습니다.

아래는 유사한 질문과 관련된 기존 답변 링크입니다:
- MDP 상태가치 함수에서 기대값 관련 질문 드립니다.
- MDP 질문

이 링크들은 여러분이 이해를 강화하는 데 도움이 되는 다양한 각도에서의 설명을 제공합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

python main.py 실행시 게임이 실행이 안돼요

0

8

2

antigravity 대신 cursor를 활용해도 되나요?

0

9

1

뉴스 검색 분류 한도초과

0

12

2

무료할당량 사용하는데 문제가 생겼습니다.

0

10

1

완성자료

0

8

2

섹션5 노션링크 는 따로 없나요?

0

16

2

필기자료 사라졌나요?(실기 일주일만에 안돼서 재도전-_-)

0

15

2

Part 4에서 강의 연관 노션 정보들이 워드파일에 없습니다.

0

19

2

첨부자료 Part 4 코드 확인 부탁드리겠습니다.

0

16

2

질문 드립니다.

0

37

2

노션 링크

0

40

3

20강에서 파인튜닝 때 사용한 데이터가 없어졌습니다. LoRA Trainer 매개변수도 라이브러리 업그레이드로 수정되었습니다.

0

17

1

26년 1회 실기 해설 강의

0

46

2

노션 권한요청하였습니다 언제쯤 볼수있나요

0

37

2

AAFM CWM_LEVEL_2 Exam Questions 2026: Right Preparation Method

0

24

1

강의 내용 관련 질문드립니다~

0

34

2

퍼플렉시티 최소 결제단위 50달러로 바뀐 것 같습니다.

0

37

2

수강 연장 문의

0

31

1

강의자료 일괄 다운로드

0

41

2

stable_baseline3 설치 안됨

0

251

2

자산배분비율 변경 백테스트와 어떻게 다르죠?

0

107

2

소스코드 없어요

0

113

2

강화학습, 머신러닝에 관심 있는 웹 개발자입니다. 수학적 난이도 때문에 실무 활용이 고민됩니다.

0

175

1

실습 프로그램 파일 제공 문의

0

89

1