BEST

From Introduction to Reinforcement Learning to Deep Q-learning/Policy Gradient

Recently, all the remarkable achievements in the field of artificial intelligence are being announced in the area of reinforcement learning. This covers reinforcement learning technology—which is bringing about true innovation in AI such as robotics, autonomous driving, and humanoid machines—from basic to advanced levels in an easy-to-understand way for beginners.

(4.7) 36 reviews

396 learners

Level Intermediate

Course period Unlimited

YoungJea Oh

Python

Deep Learning(DL)

Reinforcement Learning(RL)

PyTorch

Python

Deep Learning(DL)

Reinforcement Learning(RL)

PyTorch

Unresolved
소리가 겹쳐서 들려요
어떤 강의는 괜찮은데 대부분 강의에서 소리가 두개씩 겹쳐 들립니다.들어보면 같은 내용인데 강의 내용(슬라이드 포인트)보다 0.5초 정도 더 빨리 작게 들리네요.
python
딥러닝
강화학습
pytorch
gisun10000011
・
a month ago
0
55
2
Unresolved
전 강의와 전혀 이어지지가 않음
전 강의와 전혀 이어지지가 않음 다운받기를 한 적도 없고, 전 강의에서는 pip install만 진행했고, 무슨 디렉토리가 갑자기 튀어나오는
python
딥러닝
강화학습
pytorch
No Author
・
2 months ago
0
55
1
Resolved
pytorch local 설치 옵션에 conda 가 없습니다.
pytorch local 설치 옵션에 conda 가 없습니다.
python
딥러닝
강화학습
pytorch
inhokim2111
・
2 months ago
0
58
3
Resolved
강화학습저장 및 로드
오영제 선생님 강의 잘 듣고 있고 감사드립니다.드리고 싶은 질문은 강화학습은 학습 후 훈련내용을 어떻게 저장하고 필요시 어떻게 로드하는 지 궁금하니다.
python
딥러닝
강화학습
pytorch
nkhwi
・
3 months ago
0
82
1
Unresolved
16:07슬라이드에소 헷갈리는 부분이 있습니다
Policy Network(Q)와 일반적인 Q-learning 문제에서의 behaviour policy(b)가 각자 하는 역할이 비슷한거 같은데, 만약 틀리다면 추가적인 설명을 부탁드려도 될까요?
python
딥러닝
강화학습
pytorch
hyounghe07248680
・
8 months ago
0
76
2
Unresolved
미분 결과가 왜 저렇게 나오는지 궁금합니다.
6:49쯤에, MSBE = (delta_{t+1})^2의 미분 결과가 2*(delta_{t+1})* (\partial(delta_{t+1}}); 합성함수의 미분, 의 형태가 아닌 화면에 나오는 것처럼 미분이 되는지 궁금
python
딥러닝
강화학습
pytorch
hyounghe07248680
・
8 months ago
0
80
1
Unresolved
Taxi-v3에 대한 두 가지질문
Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 observations 환경이라 그런 걸까요?랜덤하게 목적지와 손
python
딥러닝
강화학습
pytorch
hyounghe07248680
・
9 months ago
0
59
1
Unresolved
그림에 대해서 잘 이해가 안됩니다.
9분 52초의 Policy Improvement table에서는 blue statement를 통과해서 가는데 optimal이라고 화살표가 나아 있는데, 14분 6초에서는 blue statement
python
딥러닝
강화학습
pytorch
hyounghe07248680
・
9 months ago
0
62
1
Unresolved
stochastic state 관련
안녕하세요. 약 4분 경, value function 을 구할때stochastic 하게 state가 결정
python
딥러닝
강화학습
pytorch
etank34721
・
9 months ago
0
74
2
Resolved
reward, value functnio
안녕하세요.강화학습 자체가 reward를 최대화 하는 방향으로 학습을 하는 것인데,그럼 결국 reward
python
딥러닝
강화학습
pytorch
etank34721
・
9 months ago
0
71
2
Unresolved
전이확률 / stochastic env.
안녕하세요.그럼 stochastic env. 에서특정 action을 선택해서 행했을때, 그 action이 이루어 지는지 다른 action이 이루어 지는지에
python
딥러닝
강화학습
pytorch
etank34721
・
9 months ago
0
69
1
Resolved
확률론적 policy 관련
안녕하세요. 전이확률과 stochastic policy 가 헷갈려서 그런데,stoc
python
딥러닝
강화학습
pytorch
etank34721
・
9 months ago
0
52
1
Unresolved
model based
model based method 에서모델을 안다는 것이, value function 정보까지 다 알고 있다는 것일까요? 만약 아니라
python
딥러닝
강화학습
pytorch
etank34721
・
9 months ago
0
60
1
Resolved
time sequential data 관련
안녕하세요.강화학습이 time sequential data 를 다룬다고 하셨고, 예시로 language 데이터 를 말씀하셨는데, 이런 이유로 최근 LLM 개발시,
python
딥러닝
강화학습
pytorch
etank34721
・
9 months ago
0
62
2
Resolved
Deep Q-Learning algorithm에 대하여
Deep Q-Learning algorithm에 대하여target Q와 Q 학습 과정에서 Q값이 학습되면 행동도 target Q와 Q가 같아 지는게 잘 이해되지
python
딥러닝
강화학습
pytorch
0000000000
・
10 months ago
0
95
2
Unresolved
Cartpole 환경 이해 및 시각화 관련 문의
[1]안녕하세요? 강화학습 입문 강의 듣고 있습니다. 순서적으로 듣고 있는데 환경이 Jupyter note에서 VS로 갑자가 바뀐 이유가 궁금합니다. [2]VS를 새로 설치해야하나요? <p style="text
python
딥러닝
강화학습
pytorch
iupeace1624
・
a year ago
0
119
3
Resolved
실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax
안녕하세요 아래와 같이 new_action_values 의 max 값이 복수개 발견될경우 맨처음 발견된 index 만 표시 되는게 맞는건가요?<p styl
python
딥러닝
강화학습
pytorch
okputto3340
・
04/20/2025
0
115
1
Unresolved
실습에러 TImelimit
안녕하세요. Frozen lake 실습에서 해당 코드 실행하면 에러가 나옵니다.ㅜㅜ코드 잘못짠건 아니고 올려주신 파일 그대로 실행했을때 에러납니다.<img src="https://cdn.inflearn.com/public/files/posts/
python
딥러닝
강화학습
pytorch
No Author
・
01/22/2025
0
155
2
Resolved
실습
안녕하세요. 말씀하신대로cd 디렉토리명 입력하고 code .입력하면code 는 내부 또는 외부명렬 실행할수 있는 프로그램 또는 배치 파일이 아닙니다 라고 나옵니다. 또
python
딥러닝
강화학습
pytorch
danny31261748
・
01/21/2025
0
280
6
Resolved
강의자료
강의자료는 따로 없나요?
python
딥러닝
강화학습
pytorch
No Author
・
01/20/2025
0
133
2