強化学習入門からDeep Q-learning/Policy Gradientまで
最近の人工知能分野における驚異的な成果は、そのすべてが強化学習の分野で発表されています。ロボット、自動運転技術、人間に似た機械など、真の人工知能技術の革新を成し遂げている強化学習技術を、初心者の視点で分かりやすく、基礎から応用レベルまで扱いました。
受講生 391名
難易度 中級以上
受講期間 無制限

- 未解決
소리가 겹쳐서 들려요
어떤 강의는 괜찮은데 대부분 강의에서 소리가 두개씩 겹쳐 들립니다.들어보면 같은 내용인데 강의 내용(슬라이드 포인트)보다 0.5초 정도 더 빨리 작게 들리네요.
python딥러닝강화학습pytorchgisun10000011
・
3日前
0
17
2
- 未解決
전 강의와 전혀 이어지지가 않음
전 강의와 전혀 이어지지가 않음 다운받기를 한 적도 없고, 전 강의에서는 pip install만 진행했고, 무슨 디렉토리가 갑자기 튀어나오는
python딥러닝강화학습pytorch作成者なし
・
16日前
0
29
1
- 解決
pytorch local 설치 옵션에 conda 가 없습니다.
pytorch local 설치 옵션에 conda 가 없습니다.
python딥러닝강화학습pytorchinhokim2111
・
16日前
0
38
3
- 解決
강화학습저장 및 로드
오영제 선생님 강의 잘 듣고 있고 감사드립니다.드리고 싶은 질문은 강화학습은 학습 후 훈련내용을 어떻게 저장하고 필요시 어떻게 로드하는 지 궁금하니다.
python딥러닝강화학습pytorchnkhwi
・
2ヶ月前
0
57
1
- 未解決
16:07슬라이드에소 헷갈리는 부분이 있습니다
Policy Network(Q)와 일반적인 Q-learning 문제에서의 behaviour policy(b)가 각자 하는 역할이 비슷한거 같은데, 만약 틀리다면 추가적인 설명을 부탁드려도 될까요?
python딥러닝강화학습pytorchhyounghe07248680
・
7ヶ月前
0
65
2
- 未解決
미분 결과가 왜 저렇게 나오는지 궁금합니다.
6:49쯤에, MSBE = (delta_{t+1})^2의 미분 결과가 2*(delta_{t+1})* (\partial(delta_{t+1}}); 합성함수의 미분, 의 형태가 아닌 화면에 나오는 것처럼 미분이 되는지 궁금
python딥러닝강화학습pytorchhyounghe07248680
・
7ヶ月前
0
73
1
- 未解決
Taxi-v3에 대한 두 가지질문
Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 observations 환경이라 그런 걸까요?랜덤하게 목적지와 손
python딥러닝강화학습pytorchhyounghe07248680
・
7ヶ月前
0
51
1
- 未解決
그림에 대해서 잘 이해가 안됩니다.
9분 52초의 Policy Improvement table에서는 blue statement를 통과해서 가는데 optimal이라고 화살표가 나아 있는데, 14분 6초에서는 blue statement
python딥러닝강화학습pytorchhyounghe07248680
・
8ヶ月前
0
55
1
- 未解決
stochastic state 관련
안녕하세요. 약 4분 경, value function 을 구할때stochastic 하게 state가 결정
python딥러닝강화학습pytorchetank34721
・
8ヶ月前
0
69
2
- 解決
reward, value functnio
안녕하세요.강화학습 자체가 reward를 최대화 하는 방향으로 학습을 하는 것인데,그럼 결국 reward
python딥러닝강화학습pytorchetank34721
・
8ヶ月前
0
67
2
- 未解決
전이확률 / stochastic env.
안녕하세요.그럼 stochastic env. 에서특정 action을 선택해서 행했을때, 그 action이 이루어 지는지 다른 action이 이루어 지는지에
python딥러닝강화학습pytorchetank34721
・
8ヶ月前
0
65
1
- 解決
확률론적 policy 관련
안녕하세요. 전이확률과 stochastic policy 가 헷갈려서 그런데,stoc
python딥러닝강화학습pytorchetank34721
・
8ヶ月前
0
46
1
- 未解決
model based
model based method 에서모델을 안다는 것이, value function 정보까지 다 알고 있다는 것일까요? 만약 아니라
python딥러닝강화학습pytorchetank34721
・
8ヶ月前
0
56
1
- 解決
time sequential data 관련
안녕하세요.강화학습이 time sequential data 를 다룬다고 하셨고, 예시로 language 데이터 를 말씀하셨는데, 이런 이유로 최근 LLM 개발시,
python딥러닝강화학습pytorchetank34721
・
8ヶ月前
0
57
2
- 解決
Deep Q-Learning algorithm에 대하여
Deep Q-Learning algorithm에 대하여target Q와 Q 학습 과정에서 Q값이 학습되면 행동도 target Q와 Q가 같아 지는게 잘 이해되지
python딥러닝강화학습pytorch0000000000
・
8ヶ月前
0
85
2
- 未解決
Cartpole 환경 이해 및 시각화 관련 문의
[1]안녕하세요? 강화학습 입문 강의 듣고 있습니다. 순서적으로 듣고 있는데 환경이 Jupyter note에서 VS로 갑자가 바뀐 이유가 궁금합니다. [2]VS를 새로 설치해야하나요? <p style="text
python딥러닝강화학습pytorchiupeace1624
・
10ヶ月前
0
111
3
- 解決
실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax
안녕하세요 아래와 같이 new_action_values 의 max 값이 복수개 발견될경우 맨처음 발견된 index 만 표시 되는게 맞는건가요?<p styl
python딥러닝강화학습pytorchokputto3340
・
0
107
1
- 未解決
실습에러 TImelimit
안녕하세요. Frozen lake 실습에서 해당 코드 실행하면 에러가 나옵니다.ㅜㅜ코드 잘못짠건 아니고 올려주신 파일 그대로 실행했을때 에러납니다.<img src="https://cdn.inflearn.com/public/files/posts/
python딥러닝강화학습pytorch作成者なし
・
0
151
2
- 解決
실습
안녕하세요. 말씀하신대로cd 디렉토리명 입력하고 code .입력하면code 는 내부 또는 외부명렬 실행할수 있는 프로그램 또는 배치 파일이 아닙니다 라고 나옵니다. 또
python딥러닝강화학습pytorchdanny31261748
・
0
266
6
- 解決
강의자료
강의자료는 따로 없나요?
python딥러닝강화학습pytorch作成者なし
・
0
131
2

