강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của etank34721
etank34721

câu hỏi đã được viết

Từ Giới thiệu về Học tăng cường đến Q-learning/Dải chính sách sâu

Các thành phần của Học tăng cường - Môi trường &

model based

Viết

·

45

0

model based method 에서
모델을 안다는 것이, value function 정보까지 다 알고 있다는 것일까요?

 

만약 아니라면, planning 시 가치함수는 어떻게 고려가 되는 것인지 궁금합니다.

python딥러닝강화학습pytorch

Câu trả lời 1

1

YoungJea Oh님의 프로필 이미지
YoungJea Oh
Người chia sẻ kiến thức

모델을 안다는 것은 환경의 전이 규칙과 보상 구조를 안다는 뜻이지, 가치함수를 이미 다 알고 있다는 뜻은 아닙니다.

  • 가치함수는 그 모델을 바탕으로 계산하거나 추론해서 얻는 것입니다.

  • 그래서 planning 단계에서는 모델을 이용해 미래를 시뮬레이션하고, 그 결과로 가치함수를 업데이트해 정책을 개선합니다.

좋은 질문 감사합니다.

Hình ảnh hồ sơ của etank34721
etank34721

câu hỏi đã được viết

Đặt câu hỏi