마르코프 결정과정 질문
68
작성한 질문수 2
안녕하세요. 강의 정말 잘 듣고 있습니다. 질문이 있어 글 남겨봅니다.
행동가치함수는 그 상태에서 행동을 통해 즉시보상을 얻는 것이고, 상태가치함수는 그 상태에서 정책을 쭉 따라가면서 가치함수를 계산한다는 제 이해가 맞을까요?
상태 가치가 제일 높은 것을 선택하는 것이 최적 정책이고, 최적 정책을 만들기 위해서는 각 상태에서 결정적 최적정책을 통해 최적행동가치함수의 값이 가장 큰 행동을 선택한다는 제 이해가 맞을까요?
좋은 하루 되시길 바랍니다.
답변 2
0
1. 상태가치함수 vs 행동가치함수
이해하신 맥락이 기본적으로 맞습니다. 두 함수의 차이는 '지금 당장 어떤 행동을 할 것인가'에 대한 결정권이 누구에게 있느냐의 차이입니다.
상태가치함수 (State Value Function, V(s)): 특정 상태 s에 있을 때, 이미 정해진 정책 p를 끝까지 따랐을 경우 기대되는 보상의 총합(Return)입니다. 즉, "이 상태 자체가 얼마나 좋은가?"를 나타냅니다.
행동가치함수 (Action Value Function, Q(s, a)): 상태 s에서 특정 행동 a를 일단 수행한 후, 그다음부터 정책 pi를 따랐을 경우의 기대 보상입니다. 즉, "이 상태에서 이 행동을 하는 것이 얼마나 좋은가?"를 나타냅니다.
[핵심 차이] 질문하신 "즉시 보상을 얻는 것"이라는 표현은 Q(s, a)의 시작점인 행동 a에 집중하신 것으로 보입니다. 정확히는 '즉시 보상 + 그다음 상태부터의 가치'를 합산한 것이 Q함수입니다.
2. 최적 정책과 최적 가치함수의 관계
이 부분 역시 완벽하게 이해하고 계십니다. 이를 강화학습의 벨만 최적 방정식(Bellman Optimality Equation) 관점에서 요약하면 다음과 같습니다.
최적 정책(p*)의 목표: 모든 상태에서 상태 가치(V)를 최대화하는 행동을 선택하는 것입니다.
결정적 최적 정책 (Deterministic Optimal Policy): 각 상태에서 여러 행동 중 최적 행동가치함수 Q*(s, a) 값이 가장 큰 행동을 1의 확률로 선택하는 것입니다.
0
안녕하세요, 인프런 AI 인턴입니다. 최승무님.
강화학습과 마르코프 결정과정(MDP)에 대해 심도 깊게 탐구하고 계시는군요! 질문하신 내용에 대한 설명과 유사한 답변을 참고할 수 있는 링크를 몇 가지 소개해 드리겠습니다.
행동가치함수와 상태가치함수에 대한 이해:
- 행동가치함수(Q)는 특정 상태에서 어떤 행동을 선택할 때 기대되는 총 보상입니다. 반면, 상태가치함수(V)는 특정 상태에서 시작하여 정책을 따른 경우의 기대되는 총 보상입니다.
- 즉시 보상뿐만 아니라, 이후의 기대되는 보상까지 합산하여 값을 계산하는 함수입니다.
- 행동가치함수(Q)는 특정 상태에서 어떤 행동을 선택할 때 기대되는 총 보상입니다. 반면, 상태가치함수(V)는 특정 상태에서 시작하여 정책을 따른 경우의 기대되는 총 보상입니다.
최적 정책에 대한 이해:
- 최적 정책은 각 상태에서 가능한 행동 중, 해당 행동을 통해 얻을 수 있는 최댓값을 추구하는 행동을 선택하는 것입니다.
- 상태가치함수를 기반으로 상태에서 가장 높은 가치를 선택하는 것도 동일한 개념으로 볼 수 있습니다.
- 최적 정책은 각 상태에서 가능한 행동 중, 해당 행동을 통해 얻을 수 있는 최댓값을 추구하는 행동을 선택하는 것입니다.
아래는 유사한 질문과 관련된 기존 답변 링크입니다:
- MDP 상태가치 함수에서 기대값 관련 질문 드립니다.
- MDP 질문
이 링크들은 여러분이 이해를 강화하는 데 도움이 되는 다양한 각도에서의 설명을 제공합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
python main.py 실행시 게임이 실행이 안돼요
0
8
2
antigravity 대신 cursor를 활용해도 되나요?
0
9
1
뉴스 검색 분류 한도초과
0
12
2
무료할당량 사용하는데 문제가 생겼습니다.
0
10
1
완성자료
0
8
2
섹션5 노션링크 는 따로 없나요?
0
16
2
필기자료 사라졌나요?(실기 일주일만에 안돼서 재도전-_-)
0
15
2
Part 4에서 강의 연관 노션 정보들이 워드파일에 없습니다.
0
19
2
첨부자료 Part 4 코드 확인 부탁드리겠습니다.
0
16
2
질문 드립니다.
0
37
2
노션 링크
0
40
3
20강에서 파인튜닝 때 사용한 데이터가 없어졌습니다. LoRA Trainer 매개변수도 라이브러리 업그레이드로 수정되었습니다.
0
17
1
26년 1회 실기 해설 강의
0
46
2
노션 권한요청하였습니다 언제쯤 볼수있나요
0
37
2
AAFM CWM_LEVEL_2 Exam Questions 2026: Right Preparation Method
0
24
1
강의 내용 관련 질문드립니다~
0
34
2
퍼플렉시티 최소 결제단위 50달러로 바뀐 것 같습니다.
0
37
2
수강 연장 문의
0
31
1
강의자료 일괄 다운로드
0
41
2
stable_baseline3 설치 안됨
0
251
2
자산배분비율 변경 백테스트와 어떻게 다르죠?
0
107
2
소스코드 없어요
0
113
2
강화학습, 머신러닝에 관심 있는 웹 개발자입니다. 수학적 난이도 때문에 실무 활용이 고민됩니다.
0
175
1
실습 프로그램 파일 제공 문의
0
89
1





