action을 매 episode마다 출력하기위해서는 어떻게 해야하나요?

Question

안녕하십니까 수강생입니다.

강의로 아주 많은 도움을 받고 있습니다.

현재 제 자신만의 env를 만들어 실제로 적용하는 단계입니다.

제 env는 action discrete가 9이며 state는 3인 상황입니다.

env길이는 총 100이고

episode는 500번으로 학습시켰습니다.

cartpole처럼 떨어지면 True로 바뀌는 조건은 없습니다.

또한 렌더링이 필요없는 환경이며 단순히 행동으로 나오는 데이터가 출력일 뿐입니다.

바람직한 데이터의 크기에 도달할 때 까지 학습을 진행시켰습니다.

보통 학습이 진행될 때는 episode, moving_avg, rewards_avg 세 개뿐만이 출력으로 보여지고 있습니다.

모델 학습이 끝난 뒤, 실제로 학습이 된 모델로 env를 실행시켰을때,

학습한 모델을 토대로 행동하는 action을 보려고 합니다.

그리고 그 action으로 나온 state를 보고 싶습니다.

예를 들어

episode: 1, actions : [0,0,0,1,1,1,2,2,2,3,3,3,3,~,8,8,8,8], states : [ 100, 50, 25]

action의 갯수는 총 100개 -> env 길이가 100이기 때문

(이유 : actions discrete가 9이면 action은 0~8까지의 행동을 취함, state는 3이기 때문에 3개의 값을 보여줌)

이렇게 관찰하고싶습니다.

어떻게 해야할지 전혀 모르겠어서 도와주실 수 있으실까요?

Answer

안녕하세요 김유석님

수강해주셔서 감사합니다.

제공해드린 소스 중 cartpole_run.ipynb 파일을 참조하시면 됩니다.

해당 파일은 저장된 모델을 로딩해서 실제로 env를 실행하는 기능을 제공합니다.

다음과 같이 코드를 추가하시면 원하시는 로그를 확인할 수 있습니다.

감사합니다.

---------------------------------------------------------------------------

Q = model.predict(state_t)

action = np.argmax(Q)

state_next, reword, done, none = env.step(action)

print("action:{} state_next:{}".format(action, state_next ))<<<<< 추가

reword_tot += reword

state = state_next

---------------------------------------------------------------------------