질문 & 답변 - 인프런 | 커뮤니티

질문 게시판

고민있어요

스터디

팀 프로젝트

멘토링

멘토링 후기

수강평

With us

인프런 피드

블로그

인프런 소개

공지사항

대시보드

강의

홈

로드맵

더보기

묻고 답해요

130만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

미해결
프로그래머를 위한 강화학습(저자 직강)

Reward 에 대한 질문 드립니다.

좋은 강의 감사드립니다. 깊이 있는 지식에서 나오는 것들이라 듣는 순간 아는것 처럼 착각하게 됩니다. 중반까지 듣고 있는데 풀리지 않는 의문이 있어서 질문드립니다. 보상에 관한 것인데 나누어 질문 드리려고 합니다. 1. Gym 과 같은 것을 사용하면 보상이 나오는데 이것은 일종의 설계로 보입니다. 즉, 좌 또는 우로 움직여서 성공적으로 움직이면 reward 가 주어지는 구조로 보입니다. 제가 이해한 것이 맞는지? 이런 질문을 드리는 이유는 강화학습이 reword 를 학습하는것은 아니다 라는 판단이 있어서 입니다. 2. 만약 위 질문에서 답이 yes 라면 reward 를 환경과 상황에 따라 설계를 해야된다는 말씀이 되는데 어떤 규칙이나 방법이 존재하는지? 너무 복잡한 환경에서 어떤 reward 를 줘야 되는지 모른다면 어떻게 접근하면 될까요? 3. reward 가 지연되어 들어온다면 여전히 강화학습이 유효한가? 라는 질문입니다. 예를 들어 비행기 시뮬레이션에서 pitch 를 위로 올린다면 올리기 시작 후 원하는 각도가 될따까지 시간적인 지연이 있을 것입니다. 이경우 그 행동을 시작했던 시점과 시간차가 나는데 여전히 유효하게 학습을 하는지? 라는 질문이 됩니다. 아마도 deep learning model 이 함께 사용된다면 가능할 수 도 있겠다는 생각이지만 그게 아닌 단순한 Q-Learning 정도로 이것은 가능한지? 최대한 짧게 정리하려고 했는데 결국 두서없이 작성했습니다. 문장력이 없어서라고 생각하고 이해 부탁드립니다. 간단한 힌트라도 좋으니 멀티코어 님의 조언 부탁드립니다. 미리 감사드립니다.

Kim Sunggu · 2022.07.09 · 프로그래머를 위한 강화학습(저자 직강)

투표점수

1

조회수

117

답변

1

인기 태그

주간 인기글