Reinforcement Learning for Programmers (Author's Direct Lecture)
The easiest and most detailed lecture on reinforcement learning, the core technology for business innovation!!! We will put reinforcement learning in your hands within 17 days, dedicating 2 hours a day (2 lectures). From now on, reinforcement learning will not be a difficult problem to understand, but a great tool for you.
471 learners
Level Basic
Course period Unlimited

- Unresolved
실습강의 소스코드
강의 잘 보고 있습니다.몇몇 프로그래밍 실습강의가 있는데, 거기서 사용된 소스코드는 공유가 안되는지요? <p style="text-align: left"
인공신경망강화학습ewiz2117942
・
10 months ago
0
76
2
- Unresolved
환경구축에 대해서
anaconda에서는 환경구축 하기가 힘든가요? 제가 연구실 컴터가 conda 가상환경으로 환경구축이 되어있어서,,,python도 3.13.5쓰고 있는데 다 삭제하고 3.7.7설치하는 건 조금 부담이 되서 ㅜ
인공신경망강화학습ana3803693504
・
10 months ago
0
82
2
- Unresolved
MyModel(tf.keras.Model)에 action matrix와 reward와 관련해서
training시에 필요한 action matrix와 reward를 받기위해 inputs에 dummy로 input_action_matrixs와 input_rewards를 정의하고 있는것처럼 보이는데요. 이렇게 하지않고 MyMode
인공신경망강화학습bsjeon875892
・
0
316
1
- Unresolved
2.7 TD 상태가치함수
2.7 TD와 SARSA를 공부하던 중 이해가 가지 않는 부분이 있어 질문 드렸습니다!상태가치함수 V(t)는 반환값에 대한 기댓값이고 다이내믹 프로그래밍은 model-based이기 때문에 전체 상태와 가치를 다 안다는 전제하에 V(t)를 구할 수 있습
인공신경망강화학습tdv(s)reinforcement
・
1
272
1
- Unresolved
cartpole_DQN 에러
<img src="https://cdn.inflearn.com/public/files/posts/e33eaf5a-b3fe-4149-b548-c9110ad2631e/cartpole_DQN질문.png" alt="cartpole_DQN 질문.png" title="car
인공신경망강화학습reinforcement
・
0
416
2
- Unresolved
교재 P42 MDP 계산 질문
맨 아래 수식이 파이1 X p1 + 파이2 X p1 으로 나오는데요,파이1 X p1 + 파이1 X p2 가 되어야 하지 않나요?파이는 행동을 선택할 확률이고 S1->S2
vulcanus6394
・
0
252
1
- Unresolved
PPO에서 min()을 사용하는 이유가 궁금합니다
설명해주신대로면,min()을 사용하지 않아도 이미 clip()을 통해서 r()이 상항과 하한을 넘기면 a 혹은 b로 고정되고, 그 범위 안에 들어가면 r()이 그대로 나오는 것으로 생각됩니다. min()이 여기서 어떠한 역할을 하는지 궁금합니다.</p
인공신경망강화학습kc80701541
・
0
595
1
- Unresolved
cartpole_reinforce.ipynb 에러
코랩에서 cartpole_reinforce.ipynb 실행시킬때 아래와 같은 에러 발생합니다.ValueError: Layer "my_model_1" expects 3 input(s), but it received 1 input tensors. Inpu
강화학습인공신경망ohyunwoo17910
・
0
533
2
- Unresolved
DQN 알고리즘 실행 결과
말씀하신대로 코드를 수정하니 정상적으로 학습을 진행합니다.다만 학습 결과가 안 좋은데.... 강의에서 설명하신 것을 보면 하이퍼 파라메터에 민감하다고 하셨습니다.제 생각에는 하이퍼 파라메타 문제보다 타겟 신경망을 계속 업데이트하는 문제,
타겟신경망인공신경망dqn강화학습ljp41226869
・
0
359
1
- Unresolved
DQN 코드 에러
ValueError: cannot reshape array of size 2 into shape (1,4) DQN 코드에서 다음과 같은 에러가 납니다.state_t = np.re
강화학습인공신경망ljp41226869
・
0
496
1
- Unresolved
DQN 질문
<img src="https://cdn.inflearn.com/public/files/posts/c8ba8c0e-02aa-4902-87d1-45f68a47d82d/DQN 기본 개념.png" alt="DQN 기본 개념.png" title="DQN 기본 개념.png"
강화학습인공신경망ljp41226869
・
0
548
1
- Unresolved
개발환경 구축관련 문의 드립니다.
안녕하세요... 강의 환경 구축관련 문의 입니다.리눅스에 도커 깔고 거기서 환경을 만드려고 하는데요.(visual code로 접속해서 사용)Microsoft Visual C++ 설치도 나와 있던데.리눅
강화학습인공신경망weaponcho0687
・
0
232
1
- Unresolved
MDP질문
교재에서 v(s)와 vㅠ(s)가 같은 값이라고 하셨는데, 그러면 최적 상태 가치 함수는 어떻게 나오는 건가요? 어차피 v(s)는 vㅠ(s)와 같은 값일 텐테 어떻게 값이 변화되는 건지 모르겠습니다.
인공신경망강화학습ljp41226869
・
0
210
1
- Unresolved
MDP 질문
MDP에서 상태가 변한다는 것은 원래 가지고 있던 상태 전이 매트릭스와 정책의 영향을 동시에 받는다는 것과 같다. (이해완료)따라서 행동에 따른 정책과 상태 전이 확률의 기댓값(평균)을 구함으로서 정책을 고려한 상태 전이 매트릭스를 구할 수 있다(이해
강화학습인공신경망ljp41226869
・
0
269
1
- Unresolved
보상값과 보상함수
MRP에서 R을 보상 함수라고 책에 써 두셨는데, 여기서 보상함수를 구하는 방법은 확률의 기대값으로 계산한다고 하셨습니다. 확률의 기대값을 구하는 방법은 각각의 확률에 해당 상태의 기대값(주어지는 값, 임의의 값)을 곱한 것을 다 더해주면 된다고 하셨
강화학습인공신경망ljp41226869
・
0
879
1
- Unresolved
MDP 상태가치 함수에서 기대값 관련 질문 드립니다.
안녕하세요, 선생님MDP 상태가치 함수에서 정책의 기대값 식이 이해가 잘 안갑니다. 기대값은 앞강의에서 알려주신 바와 같이 gain x 확률의 총합으로 정의되는데 이 정책의 기대값은 조건부 확률 pi의 합인데 어떻게 기대값이 되는건가요?
인공신경망강화학습gphy738870
・
0
417
1
- Unresolved
Reward 에 대한 질문 드립니다.
<div class="type-pl
reward인공신경망강화학습kisatsg0074
・
1
242
1
- Unresolved
ppo에서 exploration을 어떻게 하는지 궁금합니다.
안녕하세요 강의 잘 듣고 이를 토대로 모델을 만들어서 학습하고 있습니다. 저는 ppo기반으로 학습을 진행했는데요 제가 만든환경에서 어느정도 학습이 이루어지면 환경이 조금 변화 되어 지속 학습을 하게끔하였습니다. 여
인공신경망강화학습cmw38189494
・
0
884
2
- Unresolved
강의 외 질문입니다. Env 내부 action에 대한 질문입니다.
안녕
강화학습인공신경망karma58704682
・
0
305
1
- Unresolved
episode중간에 weight나 모델을 저장하고싶습니다.
안
인공신경망강화학습karma58704682
・
0
942
2

