인프런 커뮤니티 질문&답변
강화학습저장 및 로드
해결된 질문
작성
·
15
답변 1
0
YoungJea Oh
지식공유자
강화학습 모델은 일반 딥러닝 모델보다 저장할 내용이 많습니다. 간단히 요약하면,
모델은
state_dict()옵티마이저도
state_dict()episode, step, epsilon 같은 값은 숫자 그대로 저장
정규화 통계는 dict로 저장
replay buffer는 직렬화 가능한 형태로 변환해서 저장
이 모든 것을 하나의 checkpoint dict에 넣고
torch.save()로 저장
구체적인 코드는 다음과 같습니다.
"model_state_dict": ...,
"optimizer_state_dict": ...,
"train_state": ...,
"buffer": ...,
"config": ...,
}, "checkpoint.pth")
감사합니다.





