묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결유니티 머신러닝 에이전트 완전정복 (기초편)
설치 프로그램 버전 질문있습니다.
현재 프로그램들의 버전이 꽤나 많이 나온 것 같은데 전부 강의에 맞춰서 설치하는게 좋을까요?
-
미해결유니티 머신러닝 에이전트 완전정복 (기초편)
env 환경경로 입력방법
안녕하세요! 9강에서 3d ball 학습할 때 적는 env 경로는 프로젝트에서 3d ball을 빌드한 다음에 적어야 하는 경로일까요?
-
미해결강화학습 입문에서 Deep Q-learning/Policy Gradient까지
16:07슬라이드에소 헷갈리는 부분이 있습니다
Policy Network(Q)와 일반적인 Q-learning 문제에서의 behaviour policy(b)가 각자 하는 역할이 비슷한거 같은데, 만약 틀리다면 추가적인 설명을 부탁드려도 될까요? 왜냐하면, '탐험'의 성격?을 각각의 net과 policy가 수행한다고 생각했습니다. 우선 network관점에서는 특정 행동 결정 규칙에 따라 weight를 형성하는데 이때 그리디 action에 대한 value를 추정(max함수)하는 target network에 비해선 '활용'보다는 '탐험'을 하고 있다고 생각합니다 -> 행동 규칙에 따라 transition을 입력으로 받아 weight를 업데이트 하기 때문. 이로 인해 일반적인 Q-learning에서의 b도 max를 출력하는 target policy, pi대신 e-그리디 정책으로 일정 확률 e로 모든 행동을 선택할 수 있는 기믹을 활용하여 '탐험'을 하기 때문에 위와 같은 생각을 하였습니다.
-
미해결강화학습 입문에서 Deep Q-learning/Policy Gradient까지
미분 결과가 왜 저렇게 나오는지 궁금합니다.
6:49쯤에, MSBE = (delta_{t+1})^2의 미분 결과가 2*(delta_{t+1})* (\partial(delta_{t+1}}); 합성함수의 미분, 의 형태가 아닌 화면에 나오는 것처럼 미분이 되는지 궁금합니다. 추가로 policy improvement step에서 각 action에 대해서 value가 높은 weight로 parameters을 업데이트 하면서 자동적으로 최적pi를 찾게 된다고 보는 게 맞는 이해일까요?
-
미해결강화학습 입문에서 Deep Q-learning/Policy Gradient까지
Taxi-v3에 대한 두 가지질문
Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 observations 환경이라 그런 걸까요?랜덤하게 목적지와 손님의 위치가 설정되더라도 과업을 어느정도 완벽히 수행하게 되는 원리는 어떤 특정 지점에 대해서 손님의 위치까지의 경로 계획을 위한 행동 가치에 대한 훈련과 그 손님의 위치에서 목적지를 향한 경로 계획에 대해서의 가치 훈련을 수행 했기 때문으로 보는 것이 맞을까요?
-
미해결강화학습 올인원: 기초, 최신 알고리즘, 실무 활용까지
자산배분비율 변경 백테스트와 어떻게 다르죠?
해당 강화학습 모델이 어떤 의미를 가지는지 궁금합니다.그냥 자산배뷴비율 백테스트로 gridsearch식으로 비율을 다르게 해서 지표가 가장 좋은걸 찾는 방법과강화학습을 사용한것과 어떻게 다른것인지 궁금하네요.강화학습을 사용했기때문에 리밸런싱 시기마다 자산 등락 경향을 참고해서 다음 최적의 리밸런싱 비율을 구하는건가요?
-
미해결강화학습 입문에서 Deep Q-learning/Policy Gradient까지
그림에 대해서 잘 이해가 안됩니다.
9분 52초의 Policy Improvement table에서는 blue statement를 통과해서 가는데 optimal이라고 화살표가 나아 있는데, 14분 6초에서는 blue statement를 거치지 않고 돌아서 가는 것이 optimal이라고 화살표가 표시되어 있습니다.그냥 theta의 값을 두고 iteration을 한 차이 인걸까요?
-
미해결강화학습 입문에서 Deep Q-learning/Policy Gradient까지
stochastic state 관련
안녕하세요. 약 4분 경, value function 을 구할때stochastic 하게 state가 결정된다면, 각 state가 결정될 확률값은 고려하지 않아도 되는건가요?예를들면, class1에서 class2로 갈 확률과 facebook 으로 갈 확률이 0.5 인데, 그렇다면 각 첫번째 단계에서 reward x 확률값(0.5) 이런식으로 고려하지는 않아도 되는것인지 질문드립니다. 감사합니다.
-
해결됨강화학습 입문에서 Deep Q-learning/Policy Gradient까지
reward, value functnio
안녕하세요.강화학습 자체가 reward를 최대화 하는 방향으로 학습을 하는 것인데,그럼 결국 reward 를 최대화 하는 방향인 것인지, value function을 최대화 하는 방향인 것인지헷갈려서 질문드립니다.
-
미해결강화학습 입문에서 Deep Q-learning/Policy Gradient까지
전이확률 / stochastic env.
안녕하세요.그럼 stochastic env. 에서특정 action을 선택해서 행했을때, 그 action이 이루어 지는지 다른 action이 이루어 지는지에 대한 확률이 transition probability(전이확률) 이 되는 것이라는 말씀인지요? 감사합니다.
-
해결됨강화학습 입문에서 Deep Q-learning/Policy Gradient까지
확률론적 policy 관련
안녕하세요. 전이확률과 stochastic policy 가 헷갈려서 그런데,stochastic policy 에서 특정 action을 할 확률이 전이확률이 되는 건가요?아니면, 두개가 구별된 개념인 것인가요? 감사합니다.
-
미해결강화학습 입문에서 Deep Q-learning/Policy Gradient까지
model based
model based method 에서모델을 안다는 것이, value function 정보까지 다 알고 있다는 것일까요? 만약 아니라면, planning 시 가치함수는 어떻게 고려가 되는 것인지 궁금합니다.
-
해결됨강화학습 입문에서 Deep Q-learning/Policy Gradient까지
time sequential data 관련
안녕하세요.강화학습이 time sequential data 를 다룬다고 하셨고, 예시로 language 데이터 를 말씀하셨는데, 이런 이유로 최근 LLM 개발시, 앞단에서 강화학습 알고리즘을 적용하는 것일까요? 감사합니다.
-
해결됨강화학습 입문에서 Deep Q-learning/Policy Gradient까지
Deep Q-Learning algorithm에 대하여
Deep Q-Learning algorithm에 대하여target Q와 Q 학습 과정에서 Q값이 학습되면 행동도 target Q와 Q가 같아 지는게 잘 이해되지 않습니다. 처음에는 각각의 서로 다른 행동의 Q값들이 각각의 행동별 Target Q에 동시 학습되는 것으로 이해를 하였는데, 그런게 아닌거 같습니다.
-
해결됨유니티 머신러닝 에이전트 완전정복 (응용편)
닷지 ckpt 모델 파일을 onnx변환 후 unity에서 추론
안녕하세요. 닷지 ckpt 모델 파일을 onnx로 변환 후 unity에서 추론하는 방법에 대해 알려주실 수 있을까요? 제가 시도를 해보았을 때는 NullReferenceException이 나면서 정상 작동하지 않습니다. ml-agent learn에서 자동으로 출력되는 onnx파일들은 정상 작동이 되구요. 감사합니다.
-
미해결유니티 머신러닝 에이전트 완전정복 (기초편)
onnx에 대해서
MLAgent환경학습에 보면 학습이 끝나면 결과로onnx파일이 생성된다고 나와있는데DQN을 직접짜는 실습2에서도 맨마지막에 학습이 종료되면 onnx파일이 생성되는건가요? 제 경우엔 생성되지 않던데..1. 직접짜는 방식으로도 onnx는 생성되는게 맞는지2. 생성되지 않는다면 직접짜는 방식으로 어떻게 생성할수 있는지이 두가지가 궁금합니다.
-
미해결유니티 머신러닝 에이전트 완전정복 (기초편)
텐서플로우가 안열립니다
학습은 잘진행되는거같은데 이렇게 있는데 텐서보드에 가면 이렇게 뜨네요 어떻게 하죠?
-
미해결프로그래머를 위한 강화학습(저자 직강)
실습강의 소스코드
강의 잘 보고 있습니다.몇몇 프로그래밍 실습강의가 있는데, 거기서 사용된 소스코드는 공유가 안되는지요? 소스가 공유 된다면 유용할 것 같아요.
-
미해결강화학습 올인원: 기초, 최신 알고리즘, 실무 활용까지
소스코드 없어요
3-1 강화학습 기본 알고리즘-마르코프 결정과정 8. 마르코프 결정과정 상태 가치 함수 ---> 소스코드 없음
-
미해결유니티 머신러닝 에이전트 완전정복 (기초편)
DQN을 위한 파라메터값 세팅에서 goal-plus, goal-ex
state_size에서 [3, 64,84]면은 아 알쥐비하고 해상도를 이용해 스테이트사이즈를 세팅했구나를 알겠는데goal-plus하고goal-ex하고나뉘어져 있는 이유를 모르겠습니다.각각goal-plusgoal-ex는 어떤 의미의 집합인가요?