미해결
프로그래머를 위한 강화학습(저자 직강)
Reward 에 대한 질문 드립니다.
좋은 강의 감사드립니다.
깊이 있는 지식에서 나오는 것들이라 듣는 순간 아는것 처럼 착각하게 됩니다.
중반까지 듣고 있는데 풀리지 않는 의문이 있어서 질문드립니다.
보상에 관한 것인데 나누어 질문 드리려고 합니다.
1. Gym 과 같은 것을 사용하면 보상이 나오는데 이것은 일종의 설계로 보입니다.
즉, 좌 또는 우로 움직여서 성공적으로 움직이면 reward 가 주어지는 구조로 보입니다.
제가 이해한 것이 맞는지?
이런 질문을 드리는 이유는 강화학습이 reword 를 학습하는것은 아니다 라는 판단이 있어서 입니다.
2. 만약 위 질문에서 답이 yes 라면
reward 를 환경과 상황에 따라 설계를 해야된다는 말씀이 되는데
어떤 규칙이나 방법이 존재하는지?
너무 복잡한 환경에서 어떤 reward 를 줘야 되는지 모른다면 어떻게 접근하면 될까요?
3. reward 가 지연되어 들어온다면 여전히 강화학습이 유효한가? 라는 질문입니다.
예를 들어 비행기 시뮬레이션에서 pitch 를 위로 올린다면 올리기 시작 후 원하는 각도가 될따까지 시간적인 지연이 있을 것입니다.
이경우 그 행동을 시작했던 시점과 시간차가 나는데 여전히 유효하게 학습을 하는지? 라는 질문이 됩니다.
아마도 deep learning model 이 함께 사용된다면 가능할 수 도 있겠다는 생각이지만
그게 아닌 단순한 Q-Learning 정도로 이것은 가능한지?
최대한 짧게 정리하려고 했는데 결국 두서없이 작성했습니다.
문장력이 없어서라고 생각하고 이해 부탁드립니다.
간단한 힌트라도 좋으니 멀티코어 님의 조언 부탁드립니다.
미리 감사드립니다.