From Introduction to Reinforcement Learning to Deep Q-learning/Policy Gradient
All the recent amazing achievements in the field of artificial intelligence have been announced in the field of reinforcement learning. We have covered reinforcement learning technology, which is revolutionizing true artificial intelligence technology such as robots, autonomous driving technology, and human-like machines, from the basics to the advanced level, in an easy-to-understand way for beginners.
370 learners
Level Intermediate
Course period Unlimited

- Unresolved
16:07슬라이드에소 헷갈리는 부분이 있습니다
Policy Network(Q)와 일반적인 Q-learning 문제에서의 behaviour policy(b)가 각자 하는 역할이 비슷한거 같은데, 만약 틀리다면 추가적인 설명을 부탁드려도 될까요?
python딥러닝강화학습pytorchhyounghe07248680
・
5 months ago
0
47
2
- Unresolved
미분 결과가 왜 저렇게 나오는지 궁금합니다.
6:49쯤에, MSBE = (delta_{t+1})^2의 미분 결과가 2*(delta_{t+1})* (\partial(delta_{t+1}}); 합성함수의 미분, 의 형태가 아닌 화면에 나오는 것처럼 미분이 되는지 궁금
python딥러닝강화학습pytorchhyounghe07248680
・
5 months ago
0
46
1
- Unresolved
Taxi-v3에 대한 두 가지질문
Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 observations 환경이라 그런 걸까요?랜덤하게 목적지와 손
python딥러닝강화학습pytorchhyounghe07248680
・
6 months ago
0
34
1
- Unresolved
그림에 대해서 잘 이해가 안됩니다.
9분 52초의 Policy Improvement table에서는 blue statement를 통과해서 가는데 optimal이라고 화살표가 나아 있는데, 14분 6초에서는 blue statement
python딥러닝강화학습pytorchhyounghe07248680
・
6 months ago
0
41
1
- Unresolved
stochastic state 관련
안녕하세요. 약 4분 경, value function 을 구할때stochastic 하게 state가 결정
python딥러닝강화학습pytorchetank34721
・
6 months ago
0
48
2
- Resolved
reward, value functnio
안녕하세요.강화학습 자체가 reward를 최대화 하는 방향으로 학습을 하는 것인데,그럼 결국 reward
python딥러닝강화학습pytorchetank34721
・
6 months ago
0
48
2
- Unresolved
전이확률 / stochastic env.
안녕하세요.그럼 stochastic env. 에서특정 action을 선택해서 행했을때, 그 action이 이루어 지는지 다른 action이 이루어 지는지에
python딥러닝강화학습pytorchetank34721
・
6 months ago
0
46
1
- Resolved
확률론적 policy 관련
안녕하세요. 전이확률과 stochastic policy 가 헷갈려서 그런데,stoc
python딥러닝강화학습pytorchetank34721
・
6 months ago
0
32
1
- Unresolved
model based
model based method 에서모델을 안다는 것이, value function 정보까지 다 알고 있다는 것일까요? 만약 아니라
python딥러닝강화학습pytorchetank34721
・
6 months ago
0
42
1
- Resolved
time sequential data 관련
안녕하세요.강화학습이 time sequential data 를 다룬다고 하셨고, 예시로 language 데이터 를 말씀하셨는데, 이런 이유로 최근 LLM 개발시,
python딥러닝강화학습pytorchetank34721
・
6 months ago
0
36
2
- Resolved
Deep Q-Learning algorithm에 대하여
Deep Q-Learning algorithm에 대하여target Q와 Q 학습 과정에서 Q값이 학습되면 행동도 target Q와 Q가 같아 지는게 잘 이해되지
python딥러닝강화학습pytorch0000000000
・
6 months ago
0
70
2
- Unresolved
Cartpole 환경 이해 및 시각화 관련 문의
[1]안녕하세요? 강화학습 입문 강의 듣고 있습니다. 순서적으로 듣고 있는데 환경이 Jupyter note에서 VS로 갑자가 바뀐 이유가 궁금합니다. [2]VS를 새로 설치해야하나요? <p style="text
python딥러닝강화학습pytorchiupeace1624
・
8 months ago
0
86
3
- Resolved
실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax
안녕하세요 아래와 같이 new_action_values 의 max 값이 복수개 발견될경우 맨처음 발견된 index 만 표시 되는게 맞는건가요?<p styl
python딥러닝강화학습pytorchokputto3340
・
10 months ago
0
94
1
- Unresolved
실습에러 TImelimit
안녕하세요. Frozen lake 실습에서 해당 코드 실행하면 에러가 나옵니다.ㅜㅜ코드 잘못짠건 아니고 올려주신 파일 그대로 실행했을때 에러납니다.<img src="https://cdn.inflearn.com/public/files/posts/
python딥러닝강화학습pytorchNo Author
・
0
135
2
- Resolved
실습
안녕하세요. 말씀하신대로cd 디렉토리명 입력하고 code .입력하면code 는 내부 또는 외부명렬 실행할수 있는 프로그램 또는 배치 파일이 아닙니다 라고 나옵니다. 또
python딥러닝강화학습pytorchdanny31261748
・
0
232
6
- Resolved
강의자료
강의자료는 따로 없나요?
python딥러닝강화학습pytorchNo Author
・
0
121
2
- Resolved
강의 36강에서의 질문
안녕하세요! 이번에 금융권 핀테크 기업으로 이직하면서 강화학습을 직무에 활용할 수 있을까하여 공부하고 있는 사람입니다. import gymnasium as gym impor
python딥러닝강화학습pytorchkhk1722164410
・
0
167
1
- Resolved
Pytorch 설치 GPU 버전으로 다운해도 되나요?
현재 제 컴퓨터에 RTX 4060 GPU가 있는 상태인데 Pytorch 다운로드를 CPU 버전 말고 GPU 버전으로 다운로드 해도 괜찮을까요? 수업을 듣는데 다른 지장이 있을까요 혹시?
python딥러닝강화학습pytorchhjs7554513
・
0
331
2
- Resolved
정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제
선생님 #3. 정책 개선 #policy_stable <- true policy_stable = True old_pi = pi #각 s에 대해: for s in range(num_states): # pi_s <- argm
python딥러닝강화학습pytorchbhkim
・
0
194
1
- Resolved
반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.
&nbs
python딥러닝강화학습pytorchbhkim
・
0
323
2

