inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Từ nhập môn học tăng cường đến Deep Q-learning/Policy Gradient

Tìm hiểu về REINFORCE (Thuật toán Monte Carlo Policy Gradient)

강화학습저장 및 로드

Đã giải quyết

54

nkhwi

8 câu hỏi đã được viết

0

오영제 선생님 강의 잘 듣고 있고 감사드립니다.

드리고 싶은 질문은 강화학습은 학습 후 훈련내용을 어떻게 저장하고 필요시 어떻게 로드하는 지 궁금하니다.

python 딥러닝 강화학습 pytorch

Câu trả lời 1

0

YoungJea Oh

강화학습 모델은 일반 딥러닝 모델보다 저장할 내용이 많습니다. 간단히 요약하면,

  • 모델은 state_dict()

  • 옵티마이저도 state_dict()

  • episode, step, epsilon 같은 값은 숫자 그대로 저장

  • 정규화 통계는 dict로 저장

  • replay buffer는 직렬화 가능한 형태로 변환해서 저장

  • 이 모든 것을 하나의 checkpoint dict에 넣고 torch.save()로 저장

구체적인 코드는 다음과 같습니다.

torch.save({

"model_state_dict": ...,

"optimizer_state_dict": ...,

"train_state": ...,

"buffer": ...,

"config": ...,

}, "checkpoint.pth")

감사합니다.

질문 드립니다.

0

32

2

전 강의와 전혀 이어지지가 않음

0

23

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

30

3

16:07슬라이드에소 헷갈리는 부분이 있습니다

0

62

2

미분 결과가 왜 저렇게 나오는지 궁금합니다.

0

69

1

Taxi-v3에 대한 두 가지질문

0

48

1

그림에 대해서 잘 이해가 안됩니다.

0

52

1

stochastic state 관련

0

65

2

reward, value functnio

0

63

2

전이확률 / stochastic env.

0

61

1

확률론적 policy 관련

0

43

1

model based

0

52

1

time sequential data 관련

0

53

2

Deep Q-Learning algorithm에 대하여

0

80

2

Cartpole 환경 이해 및 시각화 관련 문의

0

106

3

실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax

0

104

1

실습에러 TImelimit

0

149

2

실습

0

265

6

강의자료

0

130

2

강의 36강에서의 질문

0

176

1

Pytorch 설치 GPU 버전으로 다운해도 되나요?

0

349

2

정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제

0

217

1

반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.

0

338

2

강의코드 110_basic_operations_for ... 코드 실행 시 문제

1

305

1