Lý thuyết cơ bản về học tăng cường

Nó rất hữu ích cho những ai muốn củng cố lý thuyết và các khái niệm cơ bản về học tăng cường cũng như những ai muốn tìm hiểu cách áp dụng deep learning vào học tăng cường.

(5.0) 23 đánh giá

2,631 học viên

pangyolab8774

Reinforcement Learning(RL)

Đánh giá từ những học viên đầu tiên

Dịch cái này sang tiếng Việt

Đọc bài học củng cố

Lý thuyết cơ bản về học tăng cường

Chính sách, phần thưởng, MDP, Monte-Carlo, chênh lệch thời gian... Đây là những khái niệm thường gặp trong các bài báo và dự án liên quan đến học tăng cường. Tuy nhiên, không có nhiều tài liệu giảng dạy giải thích chi tiết định nghĩa chính xác của từng thuật ngữ, bắt đầu từ những điều cơ bản nhất. Việc lao vào một bài báo hoặc dự án mà không có sự hiểu biết vững chắc về những khái niệm này sẽ khiến bạn bị mắc kẹt, lạc lối, giống như một con tàu không có bánh lái.

Tôi tin rằng nguồn tài nguyên tốt nhất để giải thích những kiến thức cơ bản, kết hợp những lời giải thích phong phú với sự hiểu biết trực quan, chính là bài giảng trên YouTube của Giáo sư D. Silver thuộc DeepMind. Tuy nhiên, bài giảng được trình bày bằng tiếng Anh và có thể hơi khó hiểu đối với người mới bắt đầu. Do đó, bài giảng này nhằm mục đích giải thích lại nội dung tương tự bằng tiếng Hàn, giúp người học dễ hiểu hơn. Cũng như bài giảng của D. Silver gồm 10 bài giảng, bài giảng của chúng tôi cũng sẽ gồm 10 bài giảng.

Những người hữu ích

Những người muốn củng cố hiểu biết của mình về lý thuyết học tăng cường và các khái niệm cơ bản.
Bất kỳ ai muốn tìm hiểu cách học sâu được áp dụng vào học tăng cường

Đánh giá bài báo AlphaGo

Nếu bạn tò mò về những gì bạn có thể làm với phương pháp học tăng cường, trước tiên hãy xem video đánh giá bài báo AlphaGo của Pangyo Lab.
Đánh giá bài báo AlphaGo: https://www.youtube.com/watch?v=SRVx2DFu_tY&list=PLpRS2w0xWHTfnWmr95LtIu4v4HbVxqTlM
Đánh giá AlphaGo Zero Paper: https://youtu.be/CgOGKChwWrw

Học tăng cường là gì?

Học tăng cường, một trong những lĩnh vực của học máy
Học máy có thể được chia thành học có giám sát, học không giám sát và học tăng cường. Học máy liên quan đến việc nhận dạng trạng thái hiện tại và lựa chọn hành động hoặc chuỗi hành động tối đa hóa phần thưởng trong số các hành động khả dụng.

Tài liệu tham khảo

Bài giảng http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
Bài giảng trực tiếp của David Silver https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PL7-jPKtc4r78-wCZcQn5IqyuWhBZ8fOxT
Đánh giá bài báo AlphaGo https://www.youtube.com/watch?v=SRVx2DFu_tY&list=PLpRS2w0xWHTfnWmr95LtIu4v4HbVxqTlM
Đánh giá AlphaGo Zero Paper https://youtu.be/CgOGKChwWrw

Giới thiệu những người chia sẻ kiến thức

No Seung-eun
Đại học Quốc gia Seoul - Kỹ thuật máy tính và Kinh tế (2010-2015)
Khoa Khoa học và Công nghệ Hội tụ, Đại học Quốc gia Seoul - Nghiên cứu về Tối ưu hóa Siêu tham số trong Học sâu (2015-2017)
NCsoft AI Research - Nhà nghiên cứu trí tuệ nhân tạo, Nhóm học tăng cường (2017-)

Jeon Min-young
Đại học Quốc gia Seoul - Khoa học máy tính và Thiết kế hình ảnh (2011-2017)
Gameberry - Nhà phát triển (2014)
Ringle - Nhà phát triển (2015)
Madup - Nhà phát triển (2016-2017)
Naver - Đội ngũ phát triển giao diện người dùng Papago (2018-)

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

Những người mới học tăng cường

Cần biết trước khi bắt đầu?

sự khác biệt

Xin chào
Đây là

2,631

Học viên

Đánh giá

5.0

Xếp hạng

Khóa học

Chương trình giảng dạy

Tất cả

10 bài giảng ∙ (13giờ 2phút)

Phần 1. Lý thuyết cơ bản về học tăng cường

10 bài giảng ∙ (13giờ 2phút)

1. Giới thiệu học tập tăng cường
01:20:23
2. Quá trình ra quyết định của Markov
01:15:36
3. Lập kế hoạch bằng lập trình động
01:19:49
4. Dự đoán miễn phí mô hình
01:16:37
5. Kiểm soát miễn phí mô hình
01:06:22
6. Xấp xỉ hàm giá trị
01:19:54
7. Độ dốc chính sách
01:33:38
8. Tích hợp học tập và lập kế hoạch
01:21:49
9. Thăm dò và khai thác
01:13:10
10. Trò chơi cổ điển
01:15:22

Ngày đăng:

Cập nhật lần cuối:

Đánh giá

Tất cả

23 đánh giá

5.0

23 đánh giá

Jang Jaehoon
Đánh giá 603
∙
Đánh giá trung bình 4.9
5
30% đã tham gia
좋은 강의 감사합니다!
공준호
Đánh giá 2
∙
Đánh giá trung bình 5.0
5
60% đã tham gia
쿠카이든
Đánh giá 484
∙
Đánh giá trung bình 5.0
5
40% đã tham gia
강화학습에 대해서 많은 것을 배웠습니다. 좋은 강의 감사드립니다~^^
KYUNG TAE BAE
Đánh giá 286
∙
Đánh giá trung bình 5.0
5
30% đã tham gia
강화 학습에 대해 궁금한 점이 많았는데.. 많이 배워갑니다! 좋은 강의 감사해요~^^
이상
Đánh giá 4
∙
Đánh giá trung bình 4.8
5
100% đã tham gia

Miễn phí

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!

쏙쏙 이해되는 강화학습 핵심이론

Chris Song

이 강의를 통해 강화학습의 기본 이론을 익히실 수 있습니다.

초급

강화학습, Tensorflow, 머신러닝

쏙쏙 이해되는 강화학습 핵심이론

Chris Song

R로 쉽게 배우는 강화학습

코코

Q-learning부터 Deep Q-learning에 대해 배우고, 강화학습을 R로 구현해 보는 시간을 가집니다. Deep Q-network을 넘어서 Self-imitation learning과 Random Netowrk Distillation 까지 전체적인 강화학습 내용을 다룹니다.

중급이상

머신러닝, R, 강화학습

R로 쉽게 배우는 강화학습

코코

유니티 머신러닝 에이전트 완전정복 (응용편)

민규식

이 강의를 통해 멀티에이전트, 커리큘럼 학습, 분산학습 등 머신러닝 에이전트의 다양한 기능들을 배우고 직접 사용해볼 수 있습니다. 또한 호기심 기반 탐험, 가변적인 입력에도 대응 가능한 강화학습 알고리즘에 대해서도 학습할 수 있습니다.

중급이상

강화학습, Unity, Unity ML-Agents

유니티 머신러닝 에이전트 완전정복 (응용편)

민규식

유니티 머신러닝 에이전트 완전정복 (기초편)

민규식

이 강의를 통해 수강생은 다양한 강화학습의 이론을 학습하고 이를 직접 구현해 볼 뿐만 아니라 유니티 머신러닝 에이전트를 이용하여 구현한 강화학습 알고리즘을 테스트해볼 강화학습 환경까지 직접 제작해볼 수 있습니다.

초급

강화학습, 머신러닝, Unity

유니티 머신러닝 에이전트 완전정복 (기초편)

민규식

AWS DeepRacer로 배우는 인공지능과 자율주행

AI CASTLE

나만의 AI 자율주행 차를 만들어보세요! AI와 강화학습에 대해 가장 재미있고 빠르게 배울 수 있는 강의입니다. 본 강의는 DeepRacer 대한민국 랭킹 1위 개발자가 제작하였습니다.

입문

DeepRacer, 강화학습, 자율주행

AWS DeepRacer로 배우는 인공지능과 자율주행

AI CASTLE

인공지능 탄생과 발전과정을 보면 AI 원리가 보인다.

AIDER_College

AI는 갑자기 나타난 기술이 아닙니다. 70년간의 도전과 실패를 이해해야, AI의 현재와 미래를 제대로 볼 수 있습니다. 👉 “AI 역사를 이해하는 순간, 원리와 미래가 함께 보입니다.” 지금 바로 시작하세요!

입문

머신러닝, 딥러닝, 강화학습

인공지능 탄생과 발전과정을 보면 AI 원리가 보인다.

AIDER_College

엑셀로 만드는 딥러닝 프레임워크

멋진

엑셀로 딥러닝 프레임워크를 직접 구현해보자! 구현한 프레임워크로 지도학습/ 비지도학습/강화학습을 풀어보자!

초급

VBA, 딥러닝, Excel

엑셀로 만드는 딥러닝 프레임워크

멋진

Lý thuyết cơ bản về học tăng cường

Đánh giá từ những học viên đầu tiên

Dịch cái này sang tiếng Việt

Lý thuyết cơ bản về học tăng cường

Những người hữu ích

Đánh giá bài báo AlphaGo

Học tăng cường là gì?

Tài liệu tham khảo

Giới thiệu những người chia sẻ kiến thức

Khuyến nghị cho những người này

Xin chàoĐây là .css-1q3zd4q{text-decoration-line:underline;text-underline-position:under;text-underline-offset:1px;}

Chương trình giảng dạy

Đánh giá

Khóa học tương tự

Khuyến nghị cho
những người này

Xin chào
Đây là