action을 매 episode마다 출력하기위해서는 어떻게 해야하나요?
227
投稿した質問数 3
안녕하십니까 수강생입니다.
강의로 아주 많은 도움을 받고 있습니다.
현재 제 자신만의 env를 만들어 실제로 적용하는 단계입니다.
제 env는 action discrete가 9이며 state는 3인 상황입니다.
env길이는 총 100이고
episode는 500번으로 학습시켰습니다.
cartpole처럼 떨어지면 True로 바뀌는 조건은 없습니다.
또한 렌더링이 필요없는 환경이며 단순히 행동으로 나오는 데이터가 출력일 뿐입니다.
바람직한 데이터의 크기에 도달할 때 까지 학습을 진행시켰습니다.
보통 학습이 진행될 때는 episode, moving_avg, rewards_avg 세 개뿐만이 출력으로 보여지고 있습니다.
모델 학습이 끝난 뒤, 실제로 학습이 된 모델로 env를 실행시켰을때,
학습한 모델을 토대로 행동하는 action을 보려고 합니다.
그리고 그 action으로 나온 state를 보고 싶습니다.
예를 들어
episode: 1, actions : [0,0,0,1,1,1,2,2,2,3,3,3,3,~,8,8,8,8], states : [ 100, 50, 25]
action의 갯수는 총 100개 -> env 길이가 100이기 때문
(이유 : actions discrete가 9이면 action은 0~8까지의 행동을 취함, state는 3이기 때문에 3개의 값을 보여줌)
이렇게 관찰하고싶습니다.
어떻게 해야할지 전혀 모르겠어서 도와주실 수 있으실까요?
回答 1
0
안녕하세요 김유석님
수강해주셔서 감사합니다.
제공해드린 소스 중 cartpole_run.ipynb 파일을 참조하시면 됩니다.
해당 파일은 저장된 모델을 로딩해서 실제로 env를 실행하는 기능을 제공합니다.
다음과 같이 코드를 추가하시면 원하시는 로그를 확인할 수 있습니다.
감사합니다.
---------------------------------------------------------------------------
Q = model.predict(state_t)
action = np.argmax(Q)
state_next, reword, done, none = env.step(action)
print("action:{} state_next:{}".format(action, state_next ))<<<<< 추가
reword_tot += reword
state = state_next
---------------------------------------------------------------------------
딥러닝 코드에 Batch Normalization 적용해보기 질문입니다
0
580
1
딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 질문입니다
0
478
1
Binary Classfication 딥러닝 적용해보기 질문입니다
0
366
1
파이토치 device (gpu / cpu) 관련 질문드립니다.
0
711
1
혹시 응용편은 어디서 볼 수 있을까요?
0
471
1
karting asset
0
434
2
using Unity.MLAgents; 오류
0
641
1
Augmentation 질문
1
390
1
cartpole_reinforce.ipynb 에러
0
530
2
DQN 알고리즘 실행 결과
0
357
1
DQN 코드 에러
0
494
1
DQN 질문
0
546
1
개발환경 구축관련 문의 드립니다.
0
230
1
MDP질문
0
207
1
MDP 질문
0
266
1
보상값과 보상함수
0
876
1
MDP 상태가치 함수에서 기대값 관련 질문 드립니다.
0
412
1
Reward 에 대한 질문 드립니다.
1
237
1
ppo에서 exploration을 어떻게 하는지 궁금합니다.
0
881
2
강의 외 질문입니다. Env 내부 action에 대한 질문입니다.
0
301
1
episode중간에 weight나 모델을 저장하고싶습니다.
0
941
2
MDP 행동가치함수에 대한 문의 입니다.
0
404
1
TypeError: in user code: TypeError: Can not convert a NoneType into a Tensor or Operation.
0
1046
5
cartpole_dqn 중 def train_mini_batch(self,Q):에서 Q[0,0,action]의 0,0의 의미는?
0
201
1

