인프런 커뮤니티 질문&답변
Decision Period 가 잘 이해가 안되요ㅜㅜ
작성
·
156
1
정책 결정 시간이라는게 잘 이해가 안되요.
action 결정 시간이면,
5 frame 당 1번 action하는 걸 의미한다고 이해할 수 있는데요 ㅜㅜ
퀴즈
시뮬레이션 환경에서 강화 학습 에이전트를 훈련하는 주된 이유는 무엇일까요?
실제 로봇보다 물리적 움직임 속도가 느리기 때문
실패 발생 시 위험을 최소화할 수 있기 때문
더 적은 데이터로도 효율적인 학습이 가능하기 때문
공개된 환경보다 수정이 어렵기 때문
답변 1
1
민규식
지식공유자
Decison period의 경우 5로 되어있으면 5스텝마다 한번씩 새로운 행동을 결정하는 것으로 생각해주시면 됩니다! 일반적으로는 한 스텝마다 한번씩 행동을 결정하지만 그 주기를 늘려주는 것으로 생각해주시면 될 것 같습니다! :)





