inflearn logo
강의

Course

Instructor

Reinforcement Learning All-in-One: Fundamentals, Latest Algorithms, and Practical Applications

Markov Decision Process

마르코프 결정과정 질문

76

choiseungmu12346565

2 asked

0

안녕하세요. 강의 정말 잘 듣고 있습니다. 질문이 있어 글 남겨봅니다.

 

  1. 행동가치함수는 그 상태에서 행동을 통해 즉시보상을 얻는 것이고, 상태가치함수는 그 상태에서 정책을 쭉 따라가면서 가치함수를 계산한다는 제 이해가 맞을까요?

 

  1. 상태 가치가 제일 높은 것을 선택하는 것이 최적 정책이고, 최적 정책을 만들기 위해서는 각 상태에서 결정적 최적정책을 통해 최적행동가치함수의 값이 가장 큰 행동을 선택한다는 제 이해가 맞을까요?

좋은 하루 되시길 바랍니다.

python 인공신경망 강화학습 fine-tuning 최적화이론

Answer 2

0

multicoreit

1. 상태가치함수 vs 행동가치함수

이해하신 맥락이 기본적으로 맞습니다. 두 함수의 차이는 '지금 당장 어떤 행동을 할 것인가'에 대한 결정권이 누구에게 있느냐의 차이입니다.

  • 상태가치함수 (State Value Function, V(s)): 특정 상태 s에 있을 때, 이미 정해진 정책 p를 끝까지 따랐을 경우 기대되는 보상의 총합(Return)입니다. 즉, "이 상태 자체가 얼마나 좋은가?"를 나타냅니다.

  • 행동가치함수 (Action Value Function, Q(s, a)): 상태 s에서 특정 행동 a를 일단 수행한 후, 그다음부터 정책 pi를 따랐을 경우의 기대 보상입니다. 즉, "이 상태에서 이 행동을 하는 것이 얼마나 좋은가?"를 나타냅니다.

[핵심 차이] 질문하신 "즉시 보상을 얻는 것"이라는 표현은 Q(s, a)의 시작점인 행동 a에 집중하신 것으로 보입니다. 정확히는 '즉시 보상 + 그다음 상태부터의 가치'를 합산한 것이 Q함수입니다.

 

2. 최적 정책과 최적 가치함수의 관계

이 부분 역시 완벽하게 이해하고 계십니다. 이를 강화학습의 벨만 최적 방정식(Bellman Optimality Equation) 관점에서 요약하면 다음과 같습니다.

  • 최적 정책(p*)의 목표: 모든 상태에서 상태 가치(V)를 최대화하는 행동을 선택하는 것입니다.

결정적 최적 정책 (Deterministic Optimal Policy): 각 상태에서 여러 행동 중 최적 행동가치함수 Q*(s, a) 값이 가장 큰 행동을 1의 확률로 선택하는 것입니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 최승무님.

강화학습과 마르코프 결정과정(MDP)에 대해 심도 깊게 탐구하고 계시는군요! 질문하신 내용에 대한 설명과 유사한 답변을 참고할 수 있는 링크를 몇 가지 소개해 드리겠습니다.

  1. 행동가치함수와 상태가치함수에 대한 이해:

    • 행동가치함수(Q)는 특정 상태에서 어떤 행동을 선택할 때 기대되는 총 보상입니다. 반면, 상태가치함수(V)는 특정 상태에서 시작하여 정책을 따른 경우의 기대되는 총 보상입니다.
    • 즉시 보상뿐만 아니라, 이후의 기대되는 보상까지 합산하여 값을 계산하는 함수입니다.
  2. 최적 정책에 대한 이해:

    • 최적 정책은 각 상태에서 가능한 행동 중, 해당 행동을 통해 얻을 수 있는 최댓값을 추구하는 행동을 선택하는 것입니다.
    • 상태가치함수를 기반으로 상태에서 가장 높은 가치를 선택하는 것도 동일한 개념으로 볼 수 있습니다.

아래는 유사한 질문과 관련된 기존 답변 링크입니다:
- MDP 상태가치 함수에서 기대값 관련 질문 드립니다.
- MDP 질문

이 링크들은 여러분이 이해를 강화하는 데 도움이 되는 다양한 각도에서의 설명을 제공합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

aws deep racer 이제 못하는건가요?

0

5

2

늘 컴퓨터를 켜두어야 하는 것에 대한 질문입니다.

0

9

1

MMDetection 버전 이슈

0

9

2

1유형 강의 다 나간 후 어떻게 할까요?

0

12

1

점수차가 많이 나는데 따로 하신게 있으신가요?

0

8

1

노션 승인 관련

0

21

3

만세력 계산 오류 및 결과 오류

0

26

2

한글 변수의 한글 상태를 만드는 법?

0

19

0

작업형1 모의문제 4번에 3)문제 질문

0

18

2

강의 수강 순서

0

20

1

coders 사이트 로그인이 안돼요

0

25

2

호스트 테스트 주소 복사?

0

21

1

이상치 전처리 작업

0

25

2

명령팔레트에서 오류

0

38

3

평가결과값 문의

0

28

2

Sonauto V2 text to audio

0

23

2

Part2 자료에 대한 질문입니다.

0

28

3

시계열 데이터 날짜와 시간 format

0

34

2

자동화 프로그램 프로젝트

0

23

1

stable_baseline3 설치 안됨

0

277

2

자산배분비율 변경 백테스트와 어떻게 다르죠?

0

112

2

소스코드 없어요

0

115

2

강화학습, 머신러닝에 관심 있는 웹 개발자입니다. 수학적 난이도 때문에 실무 활용이 고민됩니다.

0

185

1

실습 프로그램 파일 제공 문의

0

92

1