마르코프 결정과정 질문
94
작성한 질문수 2
안녕하세요. 강의 정말 잘 듣고 있습니다. 질문이 있어 글 남겨봅니다.
행동가치함수는 그 상태에서 행동을 통해 즉시보상을 얻는 것이고, 상태가치함수는 그 상태에서 정책을 쭉 따라가면서 가치함수를 계산한다는 제 이해가 맞을까요?
상태 가치가 제일 높은 것을 선택하는 것이 최적 정책이고, 최적 정책을 만들기 위해서는 각 상태에서 결정적 최적정책을 통해 최적행동가치함수의 값이 가장 큰 행동을 선택한다는 제 이해가 맞을까요?
좋은 하루 되시길 바랍니다.
답변 2
0
1. 상태가치함수 vs 행동가치함수
이해하신 맥락이 기본적으로 맞습니다. 두 함수의 차이는 '지금 당장 어떤 행동을 할 것인가'에 대한 결정권이 누구에게 있느냐의 차이입니다.
상태가치함수 (State Value Function, V(s)): 특정 상태 s에 있을 때, 이미 정해진 정책 p를 끝까지 따랐을 경우 기대되는 보상의 총합(Return)입니다. 즉, "이 상태 자체가 얼마나 좋은가?"를 나타냅니다.
행동가치함수 (Action Value Function, Q(s, a)): 상태 s에서 특정 행동 a를 일단 수행한 후, 그다음부터 정책 pi를 따랐을 경우의 기대 보상입니다. 즉, "이 상태에서 이 행동을 하는 것이 얼마나 좋은가?"를 나타냅니다.
[핵심 차이] 질문하신 "즉시 보상을 얻는 것"이라는 표현은 Q(s, a)의 시작점인 행동 a에 집중하신 것으로 보입니다. 정확히는 '즉시 보상 + 그다음 상태부터의 가치'를 합산한 것이 Q함수입니다.
2. 최적 정책과 최적 가치함수의 관계
이 부분 역시 완벽하게 이해하고 계십니다. 이를 강화학습의 벨만 최적 방정식(Bellman Optimality Equation) 관점에서 요약하면 다음과 같습니다.
최적 정책(p*)의 목표: 모든 상태에서 상태 가치(V)를 최대화하는 행동을 선택하는 것입니다.
결정적 최적 정책 (Deterministic Optimal Policy): 각 상태에서 여러 행동 중 최적 행동가치함수 Q*(s, a) 값이 가장 큰 행동을 1의 확률로 선택하는 것입니다.
0
안녕하세요, 인프런 AI 인턴입니다. 최승무님.
강화학습과 마르코프 결정과정(MDP)에 대해 심도 깊게 탐구하고 계시는군요! 질문하신 내용에 대한 설명과 유사한 답변을 참고할 수 있는 링크를 몇 가지 소개해 드리겠습니다.
행동가치함수와 상태가치함수에 대한 이해:
- 행동가치함수(Q)는 특정 상태에서 어떤 행동을 선택할 때 기대되는 총 보상입니다. 반면, 상태가치함수(V)는 특정 상태에서 시작하여 정책을 따른 경우의 기대되는 총 보상입니다.
- 즉시 보상뿐만 아니라, 이후의 기대되는 보상까지 합산하여 값을 계산하는 함수입니다.
- 행동가치함수(Q)는 특정 상태에서 어떤 행동을 선택할 때 기대되는 총 보상입니다. 반면, 상태가치함수(V)는 특정 상태에서 시작하여 정책을 따른 경우의 기대되는 총 보상입니다.
최적 정책에 대한 이해:
- 최적 정책은 각 상태에서 가능한 행동 중, 해당 행동을 통해 얻을 수 있는 최댓값을 추구하는 행동을 선택하는 것입니다.
- 상태가치함수를 기반으로 상태에서 가장 높은 가치를 선택하는 것도 동일한 개념으로 볼 수 있습니다.
- 최적 정책은 각 상태에서 가능한 행동 중, 해당 행동을 통해 얻을 수 있는 최댓값을 추구하는 행동을 선택하는 것입니다.
아래는 유사한 질문과 관련된 기존 답변 링크입니다:
- MDP 상태가치 함수에서 기대값 관련 질문 드립니다.
- MDP 질문
이 링크들은 여러분이 이해를 강화하는 데 도움이 되는 다양한 각도에서의 설명을 제공합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
데이터제공
0
3
1
예시문제 작업형3 꼬리질문2번
0
2
0
데이터 개수를 구할 때, len과 value_counts 차이
0
5
1
API 오류: EGW00201 - 초당 거래건수를 초과
0
9
1
작업형 2 제출방
0
5
1
인코딩 스케일링 순서
0
9
2
캐글 save version 할 시 md파일과 다름.
0
12
1
실제 시험에서도 공식을 문제에서 주는지
0
7
2
수강 연장 문의
0
9
2
작업형2 정리한 내용 확인 부탁드립니다 ㅜㅜ
0
15
1
dotenv, langchain_community 로드가 되지 않습니다.
0
10
1
Basic LLM Chain 에서 Paser 를 사용해 JASON 형식으로 바꾸는 부분에서 에러가 발생합니다
0
11
2
FMP API 유료
1
12
1
강의가 넘 좋아서 3번째 복습을 하고 있는데
1
12
2
예측에 사용하는 경제지표의 활용에 대해
1
13
2
14강 "" 사용 관련 질문
0
15
2
강의 자료를 어디서 확인 할 수 있나요?
1
18
3
FRED API
1
27
1
캐글 제출 점수
0
17
2
stable_baseline3 설치 안됨
0
315
2
자산배분비율 변경 백테스트와 어떻게 다르죠?
0
126
2
소스코드 없어요
0
126
2
강화학습, 머신러닝에 관심 있는 웹 개발자입니다. 수학적 난이도 때문에 실무 활용이 고민됩니다.
0
210
1
실습 프로그램 파일 제공 문의
0
95
1





