2.7 TD 상태가치함수
270
3 câu hỏi đã được viết
2.7 TD와 SARSA를 공부하던 중 이해가 가지 않는 부분이 있어 질문 드렸습니다!
상태가치함수 V(t)는 반환값에 대한 기댓값이고 다이내믹 프로그래밍은 model-based이기 때문에 전체 상태와 가치를 다 안다는 전제하에 V(t)를 구할 수 있습니다. MC에서는 에피소드를 여러번 반복해서 실행하고 누적된 반환값을 에피소드 횟수로 나누어서 V(t)를 구합니다.
그런데 여기에서 이해가 안되는 것이 TD에서 V(t+1)을 구하는 방법입니다. 다이내믹 프로그래밍과 같이 model-based인 것도 아니고 MC처럼 에피소드가 끝날때까지 계속 구하는 것도 아닌데 어떻게 상태 가치 함수를 구할 수 있는 건가요? 상태가치함수는 반환값에 대한 기댓값이라고 이해했는데, 반환값은 에피소드가 끝날때까지 실행해야 알 수 있는 것 아닌가요?
질문 봐주셔서 감사합니다!
Câu trả lời 1
0
안녕하세요 정윤상님.
강의를 수강해주셔서 감사합니다.
정윤상님이 말씀하신 바와 같이 상태가치함수는 전체 환경에 대한 가치를 측정할 수 있습니다.
모든 정보를 알고 있는 상황에서는 다이내믹 프로그래밍과 같은 기법으로 상태가치함수를 계산할 수 있지만, 정보가 부족한 상황에서 사용할 수 있는 방법이 바로 MC입니다. 하나의 경로를 끝까지 가보고 반환값을 계산하고, 이 과정을 무한 반복하다보면 참상태가치함수(정확한 상태가치함수)를 구할 수 있다는 통계적인 방법론입니다.
TD는 한 스텝만 가보고 가치를 계산하는 것입니다. 이 방법 또한 MC와 마찬가지로 통계적인 방법론입니다. 한 스텝만 가서 계산하는 과정을 무한 반복하는 것입니다. 언제까지 반복해야 하나면 참상태가치함수와 TD로 구한 상태가치함수의 차이가 0이 될때까지 입니다.
충분한 답변이 됐는지 모르겠네요.
이해가 안가신다면 DQN 알고리즘까지 읽어보시고, 처음부터 다시 반복해서 보시는 것을 추천드립니다.
강화학습이 한 번에 이해할 수 있는 쉬운 내용은 아닙니다.
감사합니다.
전 강의와 전혀 이어지지가 않음
0
23
1
pytorch local 설치 옵션에 conda 가 없습니다.
0
30
3
강화학습저장 및 로드
0
54
1
수업 하실 때 활용하시는 강의 자료를 제공 받을 수 있는지 문의 드립니다
0
66
2
마르코프 결정과정 질문
0
67
2
stable_baseline3 설치 안됨
0
249
2
최적화
0
32
0
소스코드
0
33
1
<대규모 언어 모델, 핵심만 빠르게!> 쿠폰은 언제쯤 발급되나요?
0
52
3
section 3 이후는 언제 보게 되나요?
0
75
2
강의확인 체크가 안됩니다
0
76
2
챌린지만 등록하고 강의 수강을 놓쳤습니다.
0
94
2
커리큘럼, 섹션 미스매치
1
69
1
전자책 정오 업데이트 관련 문의
0
57
2
쿠폰관련 문의
0
49
2
챌린지 강의 영상 업로드
0
50
2
쿠폰관련입니다ㅠ
0
69
2
section2는 언제 upload 하나요?
0
61
2
온라인 강의 관련 문의
0
67
3
실습강의 소스코드
0
73
2
환경구축에 대해서
0
79
2
MyModel(tf.keras.Model)에 action matrix와 reward와 관련해서
0
314
1
cartpole_DQN 에러
0
413
2
PPO에서 min()을 사용하는 이유가 궁금합니다
0
594
1

