강화학습저장 및 로드
오영제 선생님 강의 잘 듣고 있고 감사드립니다.
드리고 싶은 질문은 강화학습은 학습 후 훈련내용을 어떻게 저장하고 필요시 어떻게 로드하는 지 궁금하니다.
Câu trả lời 1
0
강화학습 모델은 일반 딥러닝 모델보다 저장할 내용이 많습니다. 간단히 요약하면,
모델은
state_dict()옵티마이저도
state_dict()episode, step, epsilon 같은 값은 숫자 그대로 저장
정규화 통계는 dict로 저장
replay buffer는 직렬화 가능한 형태로 변환해서 저장
이 모든 것을 하나의 checkpoint dict에 넣고
torch.save()로 저장
구체적인 코드는 다음과 같습니다.
"model_state_dict": ...,
"optimizer_state_dict": ...,
"train_state": ...,
"buffer": ...,
"config": ...,
}, "checkpoint.pth")
감사합니다.
질문 드립니다.
0
32
2
전 강의와 전혀 이어지지가 않음
0
23
1
pytorch local 설치 옵션에 conda 가 없습니다.
0
30
3
16:07슬라이드에소 헷갈리는 부분이 있습니다
0
62
2
미분 결과가 왜 저렇게 나오는지 궁금합니다.
0
69
1
Taxi-v3에 대한 두 가지질문
0
48
1
그림에 대해서 잘 이해가 안됩니다.
0
52
1
stochastic state 관련
0
65
2
reward, value functnio
0
63
2
전이확률 / stochastic env.
0
61
1
확률론적 policy 관련
0
43
1
model based
0
52
1
time sequential data 관련
0
53
2
Deep Q-Learning algorithm에 대하여
0
80
2
Cartpole 환경 이해 및 시각화 관련 문의
0
106
3
실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax
0
104
1
실습에러 TImelimit
0
149
2
실습
0
265
6
강의자료
0
130
2
강의 36강에서의 질문
0
176
1
Pytorch 설치 GPU 버전으로 다운해도 되나요?
0
349
2
정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제
0
217
1
반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.
0
338
2
강의코드 110_basic_operations_for ... 코드 실행 시 문제
1
305
1

