강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

nkhwi님의 프로필 이미지
nkhwi

작성한 질문수

강화학습 입문에서 Deep Q-learning/Policy Gradient까지

REINFORCE (Monte Carlo Policy Gradient 알고리즘) 이해

강화학습저장 및 로드

해결된 질문

작성

·

15

0

오영제 선생님 강의 잘 듣고 있고 감사드립니다.

드리고 싶은 질문은 강화학습은 학습 후 훈련내용을 어떻게 저장하고 필요시 어떻게 로드하는 지 궁금하니다.

답변 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
지식공유자

강화학습 모델은 일반 딥러닝 모델보다 저장할 내용이 많습니다. 간단히 요약하면,

  • 모델은 state_dict()

  • 옵티마이저도 state_dict()

  • episode, step, epsilon 같은 값은 숫자 그대로 저장

  • 정규화 통계는 dict로 저장

  • replay buffer는 직렬화 가능한 형태로 변환해서 저장

  • 이 모든 것을 하나의 checkpoint dict에 넣고 torch.save()로 저장

구체적인 코드는 다음과 같습니다.

torch.save({

"model_state_dict": ...,

"optimizer_state_dict": ...,

"train_state": ...,

"buffer": ...,

"config": ...,

}, "checkpoint.pth")

감사합니다.

nkhwi님의 프로필 이미지
nkhwi

작성한 질문수

질문하기