강의

멘토링

로드맵

Inflearn brand logo image
AI Development

/

Deep Learning & Machine Learning

Học tăng cường tất cả trong một: từ cơ bản, thuật toán mới nhất, đến ứng dụng thực tế

AI tự phán đoán và thích nghi, giờ đây bạn có thể tự mình tạo ra. Thay vì lý thuyết phức tạp, hãy học trọng tâm học tăng cường qua giải thích trực quan và mã code, rồi phát triển thành 'nhà phát triển thực chiến' qua các dự án tài chính, công nghiệp.

(5.0) 5 đánh giá

135 học viên

  • multicoreit
강화학습
인공지능
AI
ai활용
에이전트
Python
Artificial Neural Network
Reinforcement Learning(RL)
Fine-Tuning
optimization-problem

Dịch cái này sang tiếng Việt

  • Lý thuyết cơ bản về Học tăng cường (Toán học, Thống kê, MDP)

  • Khái niệm mạng thần kinh nhân tạo (hồi quy kiểu mới, phân tích phân loại, mạng thần kinh nhân tạo)

  • Thuật toán học tăng cường (DQN, REINFORCE, A2C, PPO)

  • Tinh chỉnh thuật toán (Optuna) và Framework (Stable Baselines3)

  • Ví dụ thực tế (Chiến lược phân bổ tài sản, Mô hình hóa luân phiên công tác chi nhánh)

Hệ thống tự đánh giá và thích ứng: Phát triển thành lập trình viên thực chiến

Dành cho những ai đã do dự trong việc học tăng cường do lý thuyết toán học và code phức tạp『Học tăng cường qua code theo cách của developer』khóa học cuối cùng đã ra mắt. Thông qua học tăng cường, bạn sẽ phát triển khả năng phát triển thực chiến để tạo ra hệ thống thông minh có thể tự đưa ra quyết định và thích ứng trong những tình huống không thể dự đoán.

  • Đã thêm giải thích Kind hơn và trực quan hơn.

  • Đã thêm các công cụ thực tế mới nhất (Stable Baselines3) và kỹ thuật (Optuna).

  • Đã triển khai các dự án ví dụ thực tế phong phú (chiến lược phân bổ tài sản, luân chuyển công tác chi nhánh).

Tôi khuyến nghị cho những người như thế này

Những lập trình viên đã do dự trước rào cản toán học và lý thuyết của học tăng cườnghoặc nhà phát triển

Những người thực hành muốn giải quyết các vấn đề phức tạp của thị trường tài chính thực tế hoặc hiện trường công nghiệp bằng học tăng cườngthực tiễn hoặc nhà đầu tư cá nhân.

Vượt ra ngoài việc tự động hóa công việc đơn giản, tạo ra hệ thống thông minh có thể tự đánh giá và thích ứng theo từng tình huốngdành cho các lập trình viên

Sau khi hoàn thành khóa học

  • Vượt qua rào cản toán học để có thể kết nối các khái niệm cốt lõi và code của học tăng cường.

  • Stable-Baselines3Optuna - những công cụ thực tế hiện đại này giúp bạn xây dựng và tối ưu hóa các mô hình học tăng cường một cách hiệu quả.

  • Bạn có thể tích lũy kinh nghiệm thực tế trong việc mô hình hóa và giải quyết các vấn đề phức tạp trong thực tế bằng học tăng cường như phân bổ tài sản tài chính và bố trí nhân lực tại hiện trường công nghiệp.

  • Bạn có thể phát triển thành một nhà phát triển học tăng cường thực chiến có khả năng thiết kế và triển khai các hệ thống thông minh tự đưa ra quyết định và thích ứng theo từng tình huống.

Đặc điểm của khóa học này

2025-06-10 13;25;46

Phương pháp tiếp cận thực tế thân thiện với lập trình viên, vượt qua rào cản toán học

Thay vì các công thức phức tạp, bạn sẽ học các lý thuyết cốt lõi như MDP, hàm giá trị thông qua các ví dụ code trực quan. Thông qua thực hành từng bước dựa trên Python, bạn sẽ trực tiếp nắm bắt các nguyên lý học tăng cường và có được sự tự tin để áp dụng vào thực tế.

Phát triển khả năng giải quyết vấn đề thực tế thông qua việc sử dụng các công cụ mới nhất và các dự án thực chiến phong phú

Các thuật toán mới nhất (PPO, A2C) và Stable-Baselines3, kỹ thuật tối ưu hóa Optuna. Thông qua các dự án thực tế như phân bổ tài sản tài chính, bố trí nhân lực, bạn sẽ phát triển năng lực xây dựng hệ thống thông minh có thể học tập ngay cả khi không có dữ liệu.

Chúng ta sẽ học những nội dung như thế này

Cơ bản về học tăng cường và thể hiện tư duy xác suất

Các khái niệm xác suất/thống kê đến cơ chế tương tác agent-môi trường, tạo nên nền tảng của học tăng cường. Học về quá trình quyết định Markov (MDP), hàm giá trị, hàm Q, và xây dựng nền tảng giải quyết vấn đề với các thuật toán ban đầu như lập trình động, Monte Carlo, học sai phân thời gian.

Ứng dụng mạng nơ-ron nhân tạo và xấp xỉ hàm

Học các nguyên lý cơ bản của mạng nơ-ron nhân tạo, là cốt lõi của học tăng cường hiện đại. Tìm hiểu cách giải quyết các vấn đề không gian trạng thái/hành động phức tạp thông qua xấp xỉ hàm, và nắm bắt cách mạng nơ-ron học thông qua hàm mất mát, phương pháp gradient descent.

Học sâu các thuật toán học tăng cường mới nhất

DQN, REINFORCE, A2C, PPO và các thuật toán chính khác được trình bày chi tiết. Sử dụng Stable-Baselines3 (SB3) để xây dựng và huấn luyện mô hình, đồng thời nắm vững các kỹ thuật cốt lõi như experience replay, policy gradient, cấu trúc Actor-Critic, clipping.

Điều chỉnh mạng nơ-ron nhân tạo và tối ưu hóa tự động siêu tham số

Tiền xử lý dữ liệu đầu vào, hàm kích hoạt, khởi tạo trọng số, thuật toán tối ưu hóa, thiết kế cấu trúc mạng và các kỹ thuật tuning thực tế khác. Sử dụng công cụ tối ưu hóa tự động như Optuna với tối ưu hóa Bayesian để tìm ra các siêu tham số tối ưu nhằm tối đa hóa hiệu suất mô hình.

Kinh nghiệm dự án thực tế trong lĩnh vực tài chính và công nghiệp

Tối ưu hóa chiến lược phân bổ tài sản dựa trên dữ liệu tài chính thực tếMô hình hóa bố trí nhân lực luân chuyển chi nhánh doanh nghiệp - thông qua các dự án này, bạn sẽ nâng cao khả năng ứng dụng học tăng cường vào thực tế. Từ định nghĩa vấn đề đến cấu hình môi trường, thiết kế agent, huấn luyện mô hình, tinh chỉnh, phân tích kết quả - trải nghiệm trực tiếp toàn bộ quy trình và phát triển thành một developer thực chiến.

Người tạo ra khóa học này

  • Tác giả cuốn sách 『Học tăng cường dành cho lập trình viên』 và,

  • Khóa học học tăng cường hàng đầu Hàn Quốc đang được tiến hành trên Inflearn.

  • Vượt qua những lý thuyết phức tạp, tôi chia sẻ với các bạn những bí quyết học tăng cường có thể áp dụng vào việc giải quyết các vấn đề thực tế.

  • Liên hệ đào tạo doanh nghiệp và cá nhân: multicore.it@gmail.com

Bạn có thắc mắc gì không?

Q. Học tăng cường là gì và được sử dụng ở đâu?

Học tăng cường là phương pháp học tự động tìm ra chiến lược tối ưu một cách tự chủ. Vượt ra ngoài AI game, nó được ứng dụng để giải quyết các vấn đề thực tế không thể dự đoán như chiến lược đầu tư tài chính (giao dịch cổ phiếu, tiền mã hóa) hay tối ưu hóa bố trí nhân sự doanh nghiệp. Nó học hỏi thông qua tương tác với môi trường và thử nghiệm sai lầm, từ đó tối đa hóa hiệu quả dài hạn.

Q. Tôi có thể học được không nếu không biết toán học hoặc lập trình?

Kiến thức toán học cấp trung học phổ thông (các phép tính cơ bản, ma trận, v.v.) là đủ. Thay vì tập trung vào các công thức phức tạp, chúng ta sẽ chú trọng vào việc giải thích trực quan, và các framework deep learning sẽ xử lý phần lớn các phép tính. Kiến thức lập trình tối thiểu để đọc và viết theo code Python là cần thiết, nhưng đừng lo lắng vì chúng tôi sẽ hướng dẫn chi tiết từ việc cài đặt Python đến thiết lập môi trường phát triển.

Q. 'Giải thích khái niệm trực quan' là phương pháp như thế nào? Có công thức không?

Tập trung vào hiểu biết trực quan hơn là công thức. Các khái niệm cốt lõi như Quá trình Quyết định Markov (MDP), hàm thưởng được giải thích thông qua hình ảnh phong phú, sơ đồ, phép ẩn dụ (xúc xắc, rút bóng, v.v.)các ví dụ đa dạng. Không phải là hoàn toàn không có công thức, nhưng thay vì chứng minh phức tạp, chúng tôi tập trung vào việc kết nối ý nghĩa khái niệm đó với mã Python như thế nào.

Q. Có hướng dẫn thiết lập môi trường phát triển từ cơ bản nhất không?

Vâng, hướng dẫn chi tiết từ cơ bản hoàn toàn. Từ việc cài đặt Python đến Jupyter Notebook, Stable-Baselines3, Optuna, TensorFlow và các thư viện cần thiết khác đều được giải thích từng bước một. Ngay cả khi bạn hoàn toàn không có kinh nghiệm thiết lập môi trường phát triển, bạn vẫn có thể cấu hình mà không gặp vấn đề gì khi làm theo hướng dẫn trong khóa học.

Q. Tôi mới bắt đầu với Stable-Baselines3(SB3) hoặc Optuna, liệu có sao không?

Vâng, giải thích chi tiết để ngay cả người mới bắt đầu cũng có thể dễ dàng học được. Stable-Baselines3 với cách sử dụng trực quan giúp triển khai học tăng cường mà không cần kiến thức sâu về deep learning phức tạp. Optuna là công cụ tối ưu hóa Bayesian để điều chỉnh siêu tham số, bao gồm các khái niệm cơ bản, cách sử dụng, và cả việc ứng dụng trong ví dụ thực tế về phân bổ tài sản tài chính với mã code cụ thể.

Q. Dự án thực tế, tôi có thể tự làm được không? Độ khó như thế nào?

Vâng, bạn sẽ trực tiếp lập trình và trải nghiệm[[/STRONG_3]] các dự án [[STRONG_1]]phân bổ tài sản dựa trên dữ liệu tài chính thực tếmô hình luân chuyển nhân viên giữa các chi nhánh doanh nghiệp. Không chỉ học lý thuyết mà bạn sẽ trực tiếp xác minh xem các chiến lược học tăng cường có ảnh hưởng như thế nào đến tỷ suất lợi nhuận thực tế hoặc việc giải quyết vấn đề. Vì đây là 'hướng dẫn thực chiến', nên được cấu trúc để có thể theo dõi từng bước, giúp ngay cả những người mới tiếp cận cũng có thể thực hiện các dự án.

Q. Sau khi học khóa học này, tôi sẽ có được những năng lực gì?

Vượt qua việc hiểu lý thuyết học tăng cường, bạn sẽ trở thành nhà phát triển thực chiến có khả năng 'thiết kế agent, tạo môi trường, điều chỉnh chiến lược và đánh giá tỷ suất lợi nhuận'. Bạn có thể thiết kế chiến lược đầu tư tài chính dựa trên học tăng cường và triển khai mô hình AI giải quyết các bài toán tối ưu hóa như phân bổ nhân lực. Cuối cùng, bạn sẽ có được năng lực tạo ra hệ thống thông minh có khả năng tự phán đoán và thích ứng.

Những lưu ý trước khi học

Môi trường thực hành

  • Hệ điều hành và phiên bản (OS): Windows 10 trở lên

  • Công cụ sử dụng: Python 3.10.3, Jupyter notebook

  • Cấu hình PC: Cấu hình PC ở mức có thể chạy được MS Word

Tài liệu học tập

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Lập trình viên đã ngần ngại trước rào cản toán học của học tăng cường

  • Người làm việc thực tế, nhà đầu tư cá nhân muốn giải quyết các vấn đề phức tạp của thực tế như đầu tư tài chính, bố trí nhân lực, v.v.

  • Nhà phát triển muốn tạo ra hệ thống thông minh tự phán đoán, vượt xa tự động hóa đơn thuần.

Cần biết trước khi bắt đầu?

  • Lập trình Python cơ bản

Xin chào
Đây là

709

Học viên

41

Đánh giá

111

Trả lời

4.7

Xếp hạng

4

Các khóa học

멀티코어는 프로그래머이자 인공지능 전문가입니다. 프로그래머로서 다양한 분야에서 활동했으며 현재는 기업에서 데이터분석과 강화학습을 활용한 비즈니스 환경 개선 업무를 담당하고 있습니다. 인공지능이 학위를 받은 소수의 전문가만을 위한 영역이 아니라 프로그래머도 충분히 도전할 수 있음을 후배들에게 보여주기 위해 부단히 노력하고 있습니다. "프로그래머를 위한 강화학습"을 집필했습니다.

 

  • 집필 및 자격사항

  1. 개발자 답게 코드로 익히는 강화학습 (2025) / 프리렉

  2. 딥페이크 모델 분석을 통한 딥페이크 이미지 분류 개선에 대한 고찰 (2024) / 한국융합보안학회

  3. 비트코인 선물 자동매매시스템 집필 (2022) / 프리렉

  4. 프로그래머를 위한 강화학습 집필 (2021) / 프리렉

  5. 멀티플 DOM 트리를 활용한 브라우저 퍼징기법 연구(2017) / 연세대학교

     

  6. 정보시스템 수석감리원 자격증 취득(2015) / 정보시스템감리협회

     

  7. 컴퓨터시스템응용기술사 (2013) / 한국산업인력공단

  • 기업 및 개인 강의 문의 : multicore.it@gmail.com

Chương trình giảng dạy

Tất cả

39 bài giảng ∙ (8giờ 0phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

5 đánh giá

5.0

5 đánh giá

  • nanamjk8391님의 프로필 이미지
    nanamjk8391

    Đánh giá 3

    Đánh giá trung bình 5.0

    5

    11% đã tham gia

    I had taken Multicore-nim's Reinforcement Learning for Programmers, and when a new reinforcement learning course became available this time, I decided to take it again. Since RL is such a challenging field, I had difficulty understanding it because I couldn't find a course that suited me. Multicore-nim's course was a ray of light for me in that situation. Now, seeing RL frequently mentioned in related research papers and technologies, I think I made a really good decision to take the course back then. This course is very helpful to me because it explains practical, real-world examples well. I don't think there's another RL course in Korea as good as this one, so I highly recommend Multicore-nim's course.

    • multicoreit
      Giảng viên

      Thank you, Baguette-nim, for the good review. I will always show you my efforts.

  • 94sjh6973님의 프로필 이미지
    94sjh6973

    Đánh giá 2

    Đánh giá trung bình 5.0

    Đã chỉnh sửa

    5

    8% đã tham gia

    Reinforcement learning isn't as hard as I thought. It was good that it was explained simply. It's good that even beginners can understand it. Thank you.

    • multicoreit
      Giảng viên

      Son Jeong-ho, thank you for the good course review. I will always show you that I am making an effort.

  • multicoreit님의 프로필 이미지
    multicoreit

    Đánh giá 2

    Đánh giá trung bình 5.0

    5

    100% đã tham gia

    • bertter8544님의 프로필 이미지
      bertter8544

      Đánh giá 1

      Đánh giá trung bình 5.0

      5

      32% đã tham gia

      • shark08140795님의 프로필 이미지
        shark08140795

        Đánh giá 7

        Đánh giá trung bình 4.9

        5

        32% đã tham gia

        1.165.874 ₫

        Khóa học khác của multicoreit

        Hãy khám phá các khóa học khác của giảng viên!

        Khóa học tương tự

        Khám phá các khóa học khác trong cùng lĩnh vực!