Nó rất hữu ích cho những ai muốn củng cố lý thuyết và các khái niệm cơ bản về học tăng cường cũng như những ai muốn tìm hiểu cách áp dụng deep learning vào học tăng cường.
Chính sách, phần thưởng, MDP, Monte-Carlo, chênh lệch thời gian... Đây là những khái niệm thường gặp trong các bài báo và dự án liên quan đến học tăng cường. Tuy nhiên, không có nhiều tài liệu giảng dạy giải thích chi tiết định nghĩa chính xác của từng thuật ngữ, bắt đầu từ những điều cơ bản nhất. Việc lao vào một bài báo hoặc dự án mà không có sự hiểu biết vững chắc về những khái niệm này sẽ khiến bạn bị mắc kẹt, lạc lối, giống như một con tàu không có bánh lái.
Tôi tin rằng nguồn tài nguyên tốt nhất để giải thích những kiến thức cơ bản, kết hợp những lời giải thích phong phú với sự hiểu biết trực quan, chính là bài giảng trên YouTube của Giáo sư D. Silver thuộc DeepMind. Tuy nhiên, bài giảng được trình bày bằng tiếng Anh và có thể hơi khó hiểu đối với người mới bắt đầu. Do đó, bài giảng này nhằm mục đích giải thích lại nội dung tương tự bằng tiếng Hàn, giúp người học dễ hiểu hơn. Cũng như bài giảng của D. Silver gồm 10 bài giảng, bài giảng của chúng tôi cũng sẽ gồm 10 bài giảng.
Những người hữu ích
Những người muốn củng cố hiểu biết của mình về lý thuyết học tăng cường và các khái niệm cơ bản.
Bất kỳ ai muốn tìm hiểu cách học sâu được áp dụng vào học tăng cường
Học tăng cường, một trong những lĩnh vực của học máy Học máy có thể được chia thành học có giám sát, học không giám sát và học tăng cường. Học máy liên quan đến việc nhận dạng trạng thái hiện tại và lựa chọn hành động hoặc chuỗi hành động tối đa hóa phần thưởng trong số các hành động khả dụng.
No Seung-eun Đại học Quốc gia Seoul - Kỹ thuật máy tính và Kinh tế (2010-2015) Khoa Khoa học và Công nghệ Hội tụ, Đại học Quốc gia Seoul - Nghiên cứu về Tối ưu hóa Siêu tham số trong Học sâu (2015-2017) NCsoft AI Research - Nhà nghiên cứu trí tuệ nhân tạo, Nhóm học tăng cường (2017-)
Jeon Min-young Đại học Quốc gia Seoul - Khoa học máy tính và Thiết kế hình ảnh (2011-2017) Gameberry - Nhà phát triển (2014) Ringle - Nhà phát triển (2015) Madup - Nhà phát triển (2016-2017) Naver - Đội ngũ phát triển giao diện người dùng Papago (2018-)