인프런 커뮤니티 질문&답변
model based
작성
·
31
답변 1
1
YoungJea Oh
지식공유자
모델을 안다는 것은 환경의 전이 규칙과 보상 구조를 안다는 뜻이지, 가치함수를 이미 다 알고 있다는 뜻은 아닙니다.
가치함수는 그 모델을 바탕으로 계산하거나 추론해서 얻는 것입니다.
그래서 planning 단계에서는 모델을 이용해 미래를 시뮬레이션하고, 그 결과로 가치함수를 업데이트해 정책을 개선합니다.
좋은 질문 감사합니다.
작성
·
31
답변 1
1
모델을 안다는 것은 환경의 전이 규칙과 보상 구조를 안다는 뜻이지, 가치함수를 이미 다 알고 있다는 뜻은 아닙니다.
가치함수는 그 모델을 바탕으로 계산하거나 추론해서 얻는 것입니다.
그래서 planning 단계에서는 모델을 이용해 미래를 시뮬레이션하고, 그 결과로 가치함수를 업데이트해 정책을 개선합니다.
좋은 질문 감사합니다.