inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

R로 쉽게 배우는 강화학습

Deep Q-network (DQN) 실습 - 함수 소개 및 Environment소개

return_reward 함수에서

해결된 질문

243

MQ

작성한 질문수 2

0

마지막에 

if(re_index==which(current_state==1)){

    reward<-reward*2

  }

이건 왜 이렇게 해놓으신건가요?

머신러닝 배워볼래요? R 강화학습

답변 3

0

코코

안녕하세요. MQ님

value network는 이길 확률을 예측하는 것이 아니라 현재 state에 따른 value를 예측하게 됩니다. 그래서 일반적으로 output layer가 linear function입니다. 즉 -무한대부터 +무한대까지 값을 가질수가 있습니다. 

현재 state에 따른 value는 쉽게 해석해보면, 현재 state가 미래에 좋은 기대값을 받을 수 있는 정도로 해석할수 있습니다. 

0

MQ

답변 감사드립니다! 

관련해서 또 질문인데요. 알파고 강화학습 보면 최종 reward를 이기면 1 지면 -1 이렇게 설정 해놓는데.. 그럼 value network 가 predict 하는 값들이 승률이 아닌가요? 헤깔리는 것이 만약에 현재 state에서 백이 이길 확률이 60%라면 0.6*1+0.4*-1=0.2? 이렇게 value network가 predict 하게 되나요? 만약에 reward를 이기면 1 지면 0으로 하면 말이 되는데.. 

-1로 reward를 설정하시는 것 관련해서 궁금해서 추가 질문 드립니다. 좋은 강의 감사드립니다!

0

코코

안녕하세요. MQ님

코드를 해석해보면 

현재 current_state일 경우,

reward<-reward*2

reward에 2를 곱해서 부여하라고 되어 있습니다.

즉, reward에 가중치를 두는 것이라고 보시면 될 것 같습니다.

reward는 디자인 하는 사람 나름데로 정의할수 있는데,

저는 이문제에서 agent가 현재자리에서 움직이지 않으면 - reward로 (음수) 가중치를 두기 위함이였습니다.

numpy의 shape

0

580

1

tfjs-node 안깔려서

0

1097

1

ADP 자격증 대비 강의 개설 문의

0

809

2

하이퍼 파라미터 튜닝 범위

0

605

1

딥러닝 코드에 Batch Normalization 적용해보기 질문입니다

0

576

1

flyctl 관련 재문의 드립니다.

0

591

1

mac os ) zip 파일 dataframe 오류

0

659

1

flyctl 배포 관련 에러 문의드립니다.

0

749

1

딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 질문입니다

0

475

1

numpy.random.default_rng/hyperopt버젼

0

1166

1

Binary Classfication 딥러닝 적용해보기 질문입니다

0

363

1

업로드 후 홈화면에서 이미지가 보이지 않습니다

0

581

1

n_iter 횟수 넘음 질문

0

485

2

image 파일에서 vscode로 드래그 앤 드롭을 처리할 수 없다고 합니다

0

1009

1

upload 페이지에 아무것도 안 뜨는 현상

0

433

1

혹시 응용편은 어디서 볼 수 있을까요?

0

470

1

[질문] 파이썬 머신러닝 완벽 가이드 교차검증-2 강의내용

1

446

1

다차원 데이터 군집화와 시각화에 대해 질문드립니다

0

551

1

강의 자료 부탁드립니다 !

0

405

1

postman invalid url 질문드립니다.

0

1011

1

hyperopt를 이용한 하이퍼파라미터 튜닝

0

615

1

강화학습 예시로 날씨예측

0

438

1

PER DQN

0

237

1

강의자료와 코드에 아무것도 안뜹니다.

0

205

1