강의

멘토링

로드맵

Inflearn Community Q&A

nkhwi's profile image
nkhwi

asked

From Introduction to Reinforcement Learning to Deep Q-learning/Policy Gradient

Understanding REINFORCE (Monte Carlo Policy Gradient Algorithm)

강화학습저장 및 로드

Resolved

Written on

·

43

0

오영제 선생님 강의 잘 듣고 있고 감사드립니다.

드리고 싶은 질문은 강화학습은 학습 후 훈련내용을 어떻게 저장하고 필요시 어떻게 로드하는 지 궁금하니다.

python딥러닝강화학습pytorch

Quiz

REINFORCE 알고리즘은 어떤 종류의 정책 경사 알고리즘인가요?

시간차(Temporal Difference) 방식

액터-크리틱(Actor-Critic) 방식

몬테 카를로(Monte Carlo) 방식

Q-학습(Q-Learning) 방식

Answer 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
Instructor

강화학습 모델은 일반 딥러닝 모델보다 저장할 내용이 많습니다. 간단히 요약하면,

  • 모델은 state_dict()

  • 옵티마이저도 state_dict()

  • episode, step, epsilon 같은 값은 숫자 그대로 저장

  • 정규화 통계는 dict로 저장

  • replay buffer는 직렬화 가능한 형태로 변환해서 저장

  • 이 모든 것을 하나의 checkpoint dict에 넣고 torch.save()로 저장

구체적인 코드는 다음과 같습니다.

torch.save({

"model_state_dict": ...,

"optimizer_state_dict": ...,

"train_state": ...,

"buffer": ...,

"config": ...,

}, "checkpoint.pth")

감사합니다.

nkhwi's profile image
nkhwi

asked

Ask a question