Reward 에 대한 질문 드립니다.
237
投稿した質問数 1
回答 1
1
안녕하세요 Kim Sunggu님.
수강해 주셔서 감사합니다.
질문에 대한 답변을 드리겠습니다.
1. Kim Sunggu님이 이해하신 내용이 맞습니다.
2. reward는 환경에 알맞게 설계하는 것이 맞습니다. 인터넷에 reward 설계에 대한 많은 조언이 있지만, 결국에는 try and error 방식으로 적절한 값을 설계자가 스스로 알아내야 합니다. 많은 경험이 필요한 부분입니다.
3. 이 경우는 어떻게 환경을 설계하느냐에 따라 다릅니다. 예를 들어 행동을 했을 때 응답시간이 중요하다면 응답시간에 reward를 부여하는 것이 맞겠지요. 강화학습의 목적은 에이전트가 올바른 행동을 선택(정책)하도록 만드는 것입니다. 에이전트가 행동을 하면 그에 따른 결과가 reward입니다. 결국 설계자는 reward를 사용해서 에이전트를 가르치는 것이기 때문에 중요하다고 생각되는 포인트에 reward를 부여하면 됩니다. 또 한가지 질문이 학습환경을 단순 Q-Learning을 사용해서 설계할 수 있는가인데, 조금 어렵다고 보시는게 맞습니다. Deep Q-Learning은 인공신경망을 사용해서 설계자의 고민을 많이 덜어주는 알고리즘입니다. 인공신경망이 복잡한 문제를 단순하게 만들어줍니다. 이 부분에 대해서는 강의를 좀 더 들어보시면 이해가 가실겁니다.
감사합니다.
딥러닝 코드에 Batch Normalization 적용해보기 질문입니다
0
580
1
딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 질문입니다
0
478
1
Binary Classfication 딥러닝 적용해보기 질문입니다
0
366
1
파이토치 device (gpu / cpu) 관련 질문드립니다.
0
711
1
혹시 응용편은 어디서 볼 수 있을까요?
0
471
1
karting asset
0
434
2
using Unity.MLAgents; 오류
0
641
1
Augmentation 질문
1
390
1
cartpole_reinforce.ipynb 에러
0
530
2
DQN 알고리즘 실행 결과
0
357
1
DQN 코드 에러
0
494
1
DQN 질문
0
546
1
개발환경 구축관련 문의 드립니다.
0
230
1
MDP질문
0
207
1
MDP 질문
0
266
1
보상값과 보상함수
0
876
1
MDP 상태가치 함수에서 기대값 관련 질문 드립니다.
0
412
1
ppo에서 exploration을 어떻게 하는지 궁금합니다.
0
881
2
강의 외 질문입니다. Env 내부 action에 대한 질문입니다.
0
301
1
episode중간에 weight나 모델을 저장하고싶습니다.
0
941
2
action을 매 episode마다 출력하기위해서는 어떻게 해야하나요?
0
227
1
MDP 행동가치함수에 대한 문의 입니다.
0
404
1
TypeError: in user code: TypeError: Can not convert a NoneType into a Tensor or Operation.
0
1046
5
cartpole_dqn 중 def train_mini_batch(self,Q):에서 Q[0,0,action]의 0,0의 의미는?
0
201
1

