Từ nhập môn học tăng cường đến Deep Q-learning/Policy Gradient
Những thành tựu đáng kinh ngạc gần đây trong lĩnh vực trí tuệ nhân tạo đều đang được công bố trong lĩnh vực học tăng cường. Cuốn sách này bao quát từ cấp độ cơ bản đến nâng cao về công nghệ học tăng cường - thứ đang tạo ra những đổi mới thực sự trong công nghệ trí tuệ nhân tạo như robot, công nghệ tự lái và máy móc giống con người - dưới góc nhìn dễ hiểu dành cho người mới bắt đầu.
392 học viên
Độ khó Trung cấp trở lên
Thời gian Không giới hạn

- Chưa giải quyết
소리가 겹쳐서 들려요
어떤 강의는 괜찮은데 대부분 강의에서 소리가 두개씩 겹쳐 들립니다.들어보면 같은 내용인데 강의 내용(슬라이드 포인트)보다 0.5초 정도 더 빨리 작게 들리네요.
python딥러닝강화학습pytorchgisun10000011
・
4 ngày trước
0
23
2
- Chưa giải quyết
전 강의와 전혀 이어지지가 않음
전 강의와 전혀 이어지지가 않음 다운받기를 한 적도 없고, 전 강의에서는 pip install만 진행했고, 무슨 디렉토리가 갑자기 튀어나오는
python딥러닝강화학습pytorchKhông có tác giả
・
17 ngày trước
0
30
1
- Đã giải quyết
pytorch local 설치 옵션에 conda 가 없습니다.
pytorch local 설치 옵션에 conda 가 없습니다.
python딥러닝강화학습pytorchinhokim2111
・
17 ngày trước
0
38
3
- Đã giải quyết
강화학습저장 및 로드
오영제 선생님 강의 잘 듣고 있고 감사드립니다.드리고 싶은 질문은 강화학습은 학습 후 훈련내용을 어떻게 저장하고 필요시 어떻게 로드하는 지 궁금하니다.
python딥러닝강화학습pytorchnkhwi
・
2 tháng trước
0
57
1
- Chưa giải quyết
16:07슬라이드에소 헷갈리는 부분이 있습니다
Policy Network(Q)와 일반적인 Q-learning 문제에서의 behaviour policy(b)가 각자 하는 역할이 비슷한거 같은데, 만약 틀리다면 추가적인 설명을 부탁드려도 될까요?
python딥러닝강화학습pytorchhyounghe07248680
・
7 tháng trước
0
65
2
- Chưa giải quyết
미분 결과가 왜 저렇게 나오는지 궁금합니다.
6:49쯤에, MSBE = (delta_{t+1})^2의 미분 결과가 2*(delta_{t+1})* (\partial(delta_{t+1}}); 합성함수의 미분, 의 형태가 아닌 화면에 나오는 것처럼 미분이 되는지 궁금
python딥러닝강화학습pytorchhyounghe07248680
・
7 tháng trước
0
73
1
- Chưa giải quyết
Taxi-v3에 대한 두 가지질문
Taxi가 랜덤하게 init된 손님와 목적지의 위치를 아는 이유는 observations 환경이라 그런 걸까요?랜덤하게 목적지와 손
python딥러닝강화학습pytorchhyounghe07248680
・
8 tháng trước
0
51
1
- Chưa giải quyết
그림에 대해서 잘 이해가 안됩니다.
9분 52초의 Policy Improvement table에서는 blue statement를 통과해서 가는데 optimal이라고 화살표가 나아 있는데, 14분 6초에서는 blue statement
python딥러닝강화학습pytorchhyounghe07248680
・
8 tháng trước
0
55
1
- Chưa giải quyết
stochastic state 관련
안녕하세요. 약 4분 경, value function 을 구할때stochastic 하게 state가 결정
python딥러닝강화학습pytorchetank34721
・
8 tháng trước
0
69
2
- Đã giải quyết
reward, value functnio
안녕하세요.강화학습 자체가 reward를 최대화 하는 방향으로 학습을 하는 것인데,그럼 결국 reward
python딥러닝강화학습pytorchetank34721
・
8 tháng trước
0
67
2
- Chưa giải quyết
전이확률 / stochastic env.
안녕하세요.그럼 stochastic env. 에서특정 action을 선택해서 행했을때, 그 action이 이루어 지는지 다른 action이 이루어 지는지에
python딥러닝강화학습pytorchetank34721
・
8 tháng trước
0
65
1
- Đã giải quyết
확률론적 policy 관련
안녕하세요. 전이확률과 stochastic policy 가 헷갈려서 그런데,stoc
python딥러닝강화학습pytorchetank34721
・
8 tháng trước
0
47
1
- Chưa giải quyết
model based
model based method 에서모델을 안다는 것이, value function 정보까지 다 알고 있다는 것일까요? 만약 아니라
python딥러닝강화학습pytorchetank34721
・
8 tháng trước
0
56
1
- Đã giải quyết
time sequential data 관련
안녕하세요.강화학습이 time sequential data 를 다룬다고 하셨고, 예시로 language 데이터 를 말씀하셨는데, 이런 이유로 최근 LLM 개발시,
python딥러닝강화학습pytorchetank34721
・
8 tháng trước
0
57
2
- Đã giải quyết
Deep Q-Learning algorithm에 대하여
Deep Q-Learning algorithm에 대하여target Q와 Q 학습 과정에서 Q값이 학습되면 행동도 target Q와 Q가 같아 지는게 잘 이해되지
python딥러닝강화학습pytorch0000000000
・
8 tháng trước
0
85
2
- Chưa giải quyết
Cartpole 환경 이해 및 시각화 관련 문의
[1]안녕하세요? 강화학습 입문 강의 듣고 있습니다. 순서적으로 듣고 있는데 환경이 Jupyter note에서 VS로 갑자가 바뀐 이유가 궁금합니다. [2]VS를 새로 설치해야하나요? <p style="text
python딥러닝강화학습pytorchiupeace1624
・
10 tháng trước
0
111
3
- Đã giải quyết
실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax
안녕하세요 아래와 같이 new_action_values 의 max 값이 복수개 발견될경우 맨처음 발견된 index 만 표시 되는게 맞는건가요?<p styl
python딥러닝강화학습pytorchokputto3340
・
0
108
1
- Chưa giải quyết
실습에러 TImelimit
안녕하세요. Frozen lake 실습에서 해당 코드 실행하면 에러가 나옵니다.ㅜㅜ코드 잘못짠건 아니고 올려주신 파일 그대로 실행했을때 에러납니다.<img src="https://cdn.inflearn.com/public/files/posts/
python딥러닝강화학습pytorchKhông có tác giả
・
0
151
2
- Đã giải quyết
실습
안녕하세요. 말씀하신대로cd 디렉토리명 입력하고 code .입력하면code 는 내부 또는 외부명렬 실행할수 있는 프로그램 또는 배치 파일이 아닙니다 라고 나옵니다. 또
python딥러닝강화학습pytorchdanny31261748
・
0
267
6
- Đã giải quyết
강의자료
강의자료는 따로 없나요?
python딥러닝강화학습pytorchKhông có tác giả
・
0
131
2

