BEST

強化学習入門からDeep Q-learning/Policy Gradientまで

最近の人工知能分野における驚異的な成果は、そのすべてが強化学習の分野で発表されています。ロボット、自動運転技術、人間に似た機械など、真の人工知能技術の革新を成し遂げている強化学習技術を、初心者の視点で分かりやすく、基礎から応用レベルまで扱いました。

（4.7）受講レビュー 36件

受講生 396名

難易度 中級以上

受講期間 無制限

YoungJea Oh

Python

Deep Learning(DL)

Reinforcement Learning(RL)

PyTorch

Python

Deep Learning(DL)

Reinforcement Learning(RL)

PyTorch

未解決
소리가 겹쳐서 들려요
어떤 강의는 괜찮은데 대부분 강의에서 소리가 두개씩 겹쳐 들립니다.들어보면 같은 내용인데 강의 내용(슬라이드 포인트)보다 0.5초 정도 더 빨리 작게 들리네요.
python
딥러닝
강화학습
pytorch
gisun10000011
・
1ヶ月前
0
55
2
未解決
전 강의와 전혀 이어지지가 않음
전 강의와 전혀 이어지지가 않음 다운받기를 한 적도 없고, 전 강의에서는 pip install만 진행했고, 무슨 디렉토리가 갑자기 튀어나오는
python
딥러닝
강화학습
pytorch
作成者なし
・
2ヶ月前
0
55
1
解決
pytorch local 설치 옵션에 conda 가 없습니다.
pytorch local 설치 옵션에 conda 가 없습니다.
python
딥러닝
강화학습
pytorch
inhokim2111
・
2ヶ月前
0
58
3
解決
강화학습저장 및 로드
오영제 선생님 강의 잘 듣고 있고 감사드립니다.드리고 싶은 질문은 강화학습은 학습 후 훈련내용을 어떻게 저장하고 필요시 어떻게 로드하는 지 궁금하니다.
python
딥러닝
강화학습
pytorch
nkhwi
・
3ヶ月前
0
82
1
未解決
16:07슬라이드에소 헷갈리는 부분이 있습니다
Policy Network(Q)와 일반적인 Q-learning 문제에서의 behaviour policy(b)가 각자 하는 역할이 비슷한거 같은데, 만약 틀리다면 추가적인 설명을 부탁드려도 될까요?
python
딥러닝
강화학습
pytorch
hyounghe07248680
・
8ヶ月前
0
76
2
未解決
미분 결과가 왜 저렇게 나오는지 궁금합니다.
6:49쯤에, MSBE = (delta_{t+1})^2의 미분 결과가 2*(delta_{t+1})* (\partial(delta_{t+1}}); 합성함수의 미분, 의 형태가 아닌 화면에 나오는 것처럼 미분이 되는지 궁금
python
딥러닝
강화학습
pytorch
hyounghe07248680
・
8ヶ月前
0
80
1
未解決
Taxi-v3에 대한 두 가지질문
Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 observations 환경이라 그런 걸까요?랜덤하게 목적지와 손
python
딥러닝
강화학습
pytorch
hyounghe07248680
・
9ヶ月前
0
59
1
未解決
그림에 대해서 잘 이해가 안됩니다.
9분 52초의 Policy Improvement table에서는 blue statement를 통과해서 가는데 optimal이라고 화살표가 나아 있는데, 14분 6초에서는 blue statement
python
딥러닝
강화학습
pytorch
hyounghe07248680
・
9ヶ月前
0
62
1
未解決
stochastic state 관련
안녕하세요. 약 4분 경, value function 을 구할때stochastic 하게 state가 결정
python
딥러닝
강화학습
pytorch
etank34721
・
9ヶ月前
0
74
2
解決
reward, value functnio
안녕하세요.강화학습 자체가 reward를 최대화 하는 방향으로 학습을 하는 것인데,그럼 결국 reward
python
딥러닝
강화학습
pytorch
etank34721
・
9ヶ月前
0
71
2
未解決
전이확률 / stochastic env.
안녕하세요.그럼 stochastic env. 에서특정 action을 선택해서 행했을때, 그 action이 이루어 지는지 다른 action이 이루어 지는지에
python
딥러닝
강화학습
pytorch
etank34721
・
9ヶ月前
0
69
1
解決
확률론적 policy 관련
안녕하세요. 전이확률과 stochastic policy 가 헷갈려서 그런데,stoc
python
딥러닝
강화학습
pytorch
etank34721
・
9ヶ月前
0
52
1
未解決
model based
model based method 에서모델을 안다는 것이, value function 정보까지 다 알고 있다는 것일까요? 만약 아니라
python
딥러닝
강화학습
pytorch
etank34721
・
9ヶ月前
0
60
1
解決
time sequential data 관련
안녕하세요.강화학습이 time sequential data 를 다룬다고 하셨고, 예시로 language 데이터 를 말씀하셨는데, 이런 이유로 최근 LLM 개발시,
python
딥러닝
강화학습
pytorch
etank34721
・
9ヶ月前
0
62
2
解決
Deep Q-Learning algorithm에 대하여
Deep Q-Learning algorithm에 대하여target Q와 Q 학습 과정에서 Q값이 학습되면 행동도 target Q와 Q가 같아 지는게 잘 이해되지
python
딥러닝
강화학습
pytorch
0000000000
・
10ヶ月前
0
95
2
未解決
Cartpole 환경 이해 및 시각화 관련 문의
[1]안녕하세요? 강화학습 입문 강의 듣고 있습니다. 순서적으로 듣고 있는데 환경이 Jupyter note에서 VS로 갑자가 바뀐 이유가 궁금합니다. [2]VS를 새로 설치해야하나요? <p style="text
python
딥러닝
강화학습
pytorch
iupeace1624
・
1年前
0
119
3
解決
실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax
안녕하세요 아래와 같이 new_action_values 의 max 값이 복수개 발견될경우 맨처음 발견된 index 만 표시 되는게 맞는건가요?<p styl
python
딥러닝
강화학습
pytorch
okputto3340
・
2025/04/20
0
115
1
未解決
실습에러 TImelimit
안녕하세요. Frozen lake 실습에서 해당 코드 실행하면 에러가 나옵니다.ㅜㅜ코드 잘못짠건 아니고 올려주신 파일 그대로 실행했을때 에러납니다.<img src="https://cdn.inflearn.com/public/files/posts/
python
딥러닝
강화학습
pytorch
作成者なし
・
2025/01/22
0
155
2
解決
실습
안녕하세요. 말씀하신대로cd 디렉토리명 입력하고 code .입력하면code 는 내부 또는 외부명렬 실행할수 있는 프로그램 또는 배치 파일이 아닙니다 라고 나옵니다. 또
python
딥러닝
강화학습
pytorch
danny31261748
・
2025/01/21
0
280
6
解決
강의자료
강의자료는 따로 없나요?
python
딥러닝
강화학습
pytorch
作成者なし
・
2025/01/20
0
133
2