return_reward 함수에서
마지막에
if(re_index==which(current_state==1)){
reward<-reward*2
}
이건 왜 이렇게 해놓으신건가요?
답변 3
0
안녕하세요. MQ님
value network는 이길 확률을 예측하는 것이 아니라 현재 state에 따른 value를 예측하게 됩니다. 그래서 일반적으로 output layer가 linear function입니다. 즉 -무한대부터 +무한대까지 값을 가질수가 있습니다.
현재 state에 따른 value는 쉽게 해석해보면, 현재 state가 미래에 좋은 기대값을 받을 수 있는 정도로 해석할수 있습니다.
0
답변 감사드립니다!
관련해서 또 질문인데요. 알파고 강화학습 보면 최종 reward를 이기면 1 지면 -1 이렇게 설정 해놓는데.. 그럼 value network 가 predict 하는 값들이 승률이 아닌가요? 헤깔리는 것이 만약에 현재 state에서 백이 이길 확률이 60%라면 0.6*1+0.4*-1=0.2? 이렇게 value network가 predict 하게 되나요? 만약에 reward를 이기면 1 지면 0으로 하면 말이 되는데..
-1로 reward를 설정하시는 것 관련해서 궁금해서 추가 질문 드립니다. 좋은 강의 감사드립니다!
0
안녕하세요. MQ님
코드를 해석해보면
현재 current_state가 일 경우,
reward<-reward*2
reward에 2를 곱해서 부여하라고 되어 있습니다.
즉, reward에 가중치를 두는 것이라고 보시면 될 것 같습니다.
reward는 디자인 하는 사람 나름데로 정의할수 있는데,
저는 이문제에서 agent가 현재자리에서 움직이지 않으면 - reward로 (음수) 가중치를 두기 위함이였습니다.
numpy의 shape
0
580
1
tfjs-node 안깔려서
0
1097
1
ADP 자격증 대비 강의 개설 문의
0
809
2
하이퍼 파라미터 튜닝 범위
0
605
1
딥러닝 코드에 Batch Normalization 적용해보기 질문입니다
0
576
1
flyctl 관련 재문의 드립니다.
0
591
1
mac os ) zip 파일 dataframe 오류
0
659
1
flyctl 배포 관련 에러 문의드립니다.
0
749
1
딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 질문입니다
0
475
1
numpy.random.default_rng/hyperopt버젼
0
1166
1
Binary Classfication 딥러닝 적용해보기 질문입니다
0
363
1
업로드 후 홈화면에서 이미지가 보이지 않습니다
0
581
1
n_iter 횟수 넘음 질문
0
485
2
image 파일에서 vscode로 드래그 앤 드롭을 처리할 수 없다고 합니다
0
1009
1
upload 페이지에 아무것도 안 뜨는 현상
0
433
1
혹시 응용편은 어디서 볼 수 있을까요?
0
470
1
[질문] 파이썬 머신러닝 완벽 가이드 교차검증-2 강의내용
1
446
1
다차원 데이터 군집화와 시각화에 대해 질문드립니다
0
551
1
강의 자료 부탁드립니다 !
0
405
1
postman invalid url 질문드립니다.
0
1011
1
hyperopt를 이용한 하이퍼파라미터 튜닝
0
615
1
강화학습 예시로 날씨예측
0
438
1
PER DQN
0
237
1
강의자료와 코드에 아무것도 안뜹니다.
0
205
1





