강의

멘토링

로드맵

Inflearn コミュニティ Q&A

nkhwi のプロフィール画像
nkhwi

投稿した質問数

強化学習入門からDeep Q-learning/Policy Gradientまで

REINFORCE(Monte Carlo Policy Gradientアルゴリズム)の理解

강화학습저장 및 로드

解決済みの質問

作成

·

40

0

오영제 선생님 강의 잘 듣고 있고 감사드립니다.

드리고 싶은 질문은 강화학습은 학습 후 훈련내용을 어떻게 저장하고 필요시 어떻게 로드하는 지 궁금하니다.

python딥러닝강화학습pytorch

回答 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
インストラクター

강화학습 모델은 일반 딥러닝 모델보다 저장할 내용이 많습니다. 간단히 요약하면,

  • 모델은 state_dict()

  • 옵티마이저도 state_dict()

  • episode, step, epsilon 같은 값은 숫자 그대로 저장

  • 정규화 통계는 dict로 저장

  • replay buffer는 직렬화 가능한 형태로 변환해서 저장

  • 이 모든 것을 하나의 checkpoint dict에 넣고 torch.save()로 저장

구체적인 코드는 다음과 같습니다.

torch.save({

"model_state_dict": ...,

"optimizer_state_dict": ...,

"train_state": ...,

"buffer": ...,

"config": ...,

}, "checkpoint.pth")

감사합니다.

nkhwi のプロフィール画像
nkhwi

投稿した質問数

質問する