강의

멘토링

로드맵

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của nkhwi
nkhwi

câu hỏi đã được viết

Từ nhập môn học tăng cường đến Deep Q-learning/Policy Gradient

Tìm hiểu REINFORCE (Thuật toán chuyển đổi chính sách Monte Carlo)

강화학습저장 및 로드

Đã giải quyết

Viết

·

46

0

오영제 선생님 강의 잘 듣고 있고 감사드립니다.

드리고 싶은 질문은 강화학습은 학습 후 훈련내용을 어떻게 저장하고 필요시 어떻게 로드하는 지 궁금하니다.

python딥러닝강화학습pytorch

Quiz

REINFORCE 알고리즘은 어떤 종류의 정책 경사 알고리즘인가요?

시간차(Temporal Difference) 방식

액터-크리틱(Actor-Critic) 방식

몬테 카를로(Monte Carlo) 방식

Q-학습(Q-Learning) 방식

Câu trả lời 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
Người chia sẻ kiến thức

강화학습 모델은 일반 딥러닝 모델보다 저장할 내용이 많습니다. 간단히 요약하면,

  • 모델은 state_dict()

  • 옵티마이저도 state_dict()

  • episode, step, epsilon 같은 값은 숫자 그대로 저장

  • 정규화 통계는 dict로 저장

  • replay buffer는 직렬화 가능한 형태로 변환해서 저장

  • 이 모든 것을 하나의 checkpoint dict에 넣고 torch.save()로 저장

구체적인 코드는 다음과 같습니다.

torch.save({

"model_state_dict": ...,

"optimizer_state_dict": ...,

"train_state": ...,

"buffer": ...,

"config": ...,

}, "checkpoint.pth")

감사합니다.

Hình ảnh hồ sơ của nkhwi
nkhwi

câu hỏi đã được viết

Đặt câu hỏi