-
카테고리
-
세부 분야
딥러닝 · 머신러닝
-
해결 여부
미해결
Reward 에 대한 질문 드립니다.
22.07.09 19:02 작성 조회수 108
1
답변을 작성해보세요.
1
멀티코어
지식공유자2022.07.10
안녕하세요 Kim Sunggu님.
수강해 주셔서 감사합니다.
질문에 대한 답변을 드리겠습니다.
1. Kim Sunggu님이 이해하신 내용이 맞습니다.
2. reward는 환경에 알맞게 설계하는 것이 맞습니다. 인터넷에 reward 설계에 대한 많은 조언이 있지만, 결국에는 try and error 방식으로 적절한 값을 설계자가 스스로 알아내야 합니다. 많은 경험이 필요한 부분입니다.
3. 이 경우는 어떻게 환경을 설계하느냐에 따라 다릅니다. 예를 들어 행동을 했을 때 응답시간이 중요하다면 응답시간에 reward를 부여하는 것이 맞겠지요. 강화학습의 목적은 에이전트가 올바른 행동을 선택(정책)하도록 만드는 것입니다. 에이전트가 행동을 하면 그에 따른 결과가 reward입니다. 결국 설계자는 reward를 사용해서 에이전트를 가르치는 것이기 때문에 중요하다고 생각되는 포인트에 reward를 부여하면 됩니다. 또 한가지 질문이 학습환경을 단순 Q-Learning을 사용해서 설계할 수 있는가인데, 조금 어렵다고 보시는게 맞습니다. Deep Q-Learning은 인공신경망을 사용해서 설계자의 고민을 많이 덜어주는 알고리즘입니다. 인공신경망이 복잡한 문제를 단순하게 만들어줍니다. 이 부분에 대해서는 강의를 좀 더 들어보시면 이해가 가실겁니다.
감사합니다.
답변 1