Reward 에 대한 질문 드립니다.

Question

좋은 강의 감사드립니다.   깊이 있는 지식에서 나오는 것들이라 듣는 순간 아는것 처럼 착각하게 됩니다.   중반까지 듣고 있는데 풀리지 않는 의문이 있어서 질문드립니다.   보상에 관한 것인데 나누어 질문 드리려고 합니다.   1. Gym 과 같은 것을 사용하면 보상이 나오는데 이것은 일종의 설계로 보입니다. 즉, 좌 또는 우로 움직여서 성공적으로 움직이면 reward 가 주어지는 구조로 보입니다. 제가 이해한 것이 맞는지? 이런 질문을 드리는 이유는 강화학습이 reword 를 학습하는것은 아니다 라는 판단이 있어서 입니다.   2. 만약 위 질문에서 답이 yes 라면 reward 를 환경과 상황에 따라 설계를 해야된다는 말씀이 되는데 어떤 규칙이나 방법이 존재하는지? 너무 복잡한 환경에서 어떤 reward 를 줘야 되는지 모른다면 어떻게 접근하면 될까요?   3. reward 가 지연되어 들어온다면 여전히 강화학습이 유효한가? 라는 질문입니다. 예를 들어 비행기 시뮬레이션에서 pitch 를 위로 올린다면 올리기 시작 후 원하는 각도가 될따까지 시간적인 지연이 있을 것입니다. 이경우 그 행동을 시작했던 시점과 시간차가 나는데 여전히 유효하게 학습을 하는지? 라는 질문이 됩니다. 아마도 deep learning model 이 함께 사용된다면 가능할 수 도 있겠다는 생각이지만 그게 아닌 단순한 Q-Learning 정도로 이것은 가능한지?   최대한 짧게 정리하려고 했는데 결국 두서없이 작성했습니다. 문장력이 없어서라고 생각하고 이해 부탁드립니다.   간단한 힌트라도 좋으니 멀티코어 님의 조언 부탁드립니다. 미리 감사드립니다.

multicoreit · Answer

안녕하세요 Kim Sunggu님. 수강해 주셔서 감사합니다. 질문에 대한 답변을 드리겠습니다.    1. Kim Sunggu님이 이해하신 내용이 맞습니다.   2. reward는 환경에 알맞게 설계하는 것이 맞습니다. 인터넷에 reward 설계에 대한  많은 조언이 있지만, 결국에는 try and error 방식으로 적절한 값을 설계자가 스스로 알아내야 합니다. 많은 경험이 필요한 부분입니다.   3. 이 경우는 어떻게 환경을 설계하느냐에 따라 다릅니다. 예를 들어 행동을 했을 때 응답시간이 중요하다면 응답시간에 reward를 부여하는 것이 맞겠지요. 강화학습의 목적은 에이전트가 올바른 행동을 선택(정책)하도록 만드는 것입니다. 에이전트가 행동을 하면 그에 따른 결과가 reward입니다. 결국 설계자는 reward를 사용해서 에이전트를 가르치는 것이기 때문에 중요하다고 생각되는 포인트에 reward를 부여하면 됩니다. 또 한가지 질문이 학습환경을 단순 Q-Learning을 사용해서 설계할 수 있는가인데, 조금 어렵다고 보시는게 맞습니다. Deep Q-Learning은 인공신경망을 사용해서 설계자의 고민을 많이 덜어주는 알고리즘입니다. 인공신경망이 복잡한 문제를 단순하게 만들어줍니다. 이 부분에 대해서는 강의를 좀 더 들어보시면 이해가 가실겁니다.   감사합니다.