Hướng dẫn đầy đủ về Spark Machine Learning - Phần 1
Từ việc hiểu khung cốt lõi của học máy Spark, xử lý dữ liệu dựa trên SQL thông qua các vấn đề thực tế có độ khó cao, phân tích dữ liệu thông qua phân tích miền kinh doanh và khả năng triển khai các mô hình học máy được tối ưu hóa, bạn sẽ trở thành chuyên gia học máy dựa trên số lượng lớn data. Nếu bạn muốn được công nhận, hãy tham gia bài giảng này.
Hiểu biết chi tiết về DataFrame, nền tảng xử lý dữ liệu của Spark
Hiểu các yếu tố kỹ thuật khác nhau tạo nên Khung học máy Spark
Tìm hiểu về quy trình học máy của Spark
Khả năng sử dụng SQL để phân tích dữ liệu
Kỹ thuật Kỹ thuật tính năng dựa trên SQL
Triển khai mô hình với XGBoost và LightGBM trong Spark
Phương pháp điều chỉnh siêu tham số mô hình dựa trên tối ưu hóa Bayesian
Đồng thời cải thiện kỹ năng phân tích dữ liệu và triển khai mô hình ML của bạn thông qua các bài toán thực tế đầy thách thức
Phương pháp phân tích dữ liệu dựa trên miền phân tích
Các kỹ thuật trực quan hóa dữ liệu khác nhau
[Thông báo] Databricks Community Edition được cung cấp miễn phí trên nền tảng đám mây làm môi trường thực hành cho khóa học này không còn cho phép đăng ký mới. Do đó, xin thông báo rằng môi trường thực hành đã được thay đổi sang môi trường Spark và Jupyter cục bộ kể từ ngày 5 tháng 12 năm 2025.
Do việc thay đổi sang môi trường local chỉ ảnh hưởng đến một phần mã thực hành, nên phần lớn các video bài giảng từ Mục 1 đến Mục 10 vẫn sử dụng nguyên bản các video đã quay trước đó trên Databricks Community, và chỉ có những phần thay đổi chính được cấu trúc lại thành video bài giảng thực hành mới trên Spark local. Ngoài ra, từ Mục 11 trở đitất cả đều là video thực hành trên Spark local và khóa học sẽ được cấu trúc mới hoàn toàn vào ngày 15 tháng 1 năm 2026, vui lòng tham khảo khi lựa chọn khóa học.
Phân tích dữ liệu + Kỹ thuật đặc trưng + Triển khai ML, Nắm vững cả ba kỹ năng cùng một lúc.
Cuộc gặp gỡ giữa Apache Spark và Machine Learning.
Giải pháp xử lý phân tán quy mô lớn mã nguồn mở mạnh nhất Apache Spark đã kết hợp với Machine Learning.
Nhiều tập đoàn lớn và tổ chức tài chính trong nước đang sử dụng Apache Spark để phân tích dữ liệu lớn và xây dựng các mô hình machine learning. Vì Spark dựa trên framework xử lý dữ liệu phân tán, nên có thể mở rộng quy mô từ vài máy chủ đến hàng chục máy chủ để xử lý dữ liệu lớn và tạo các mô hình ML. Do đó, có thể vượt qua giới hạn của scikit-learn chỉ có thể triển khai mô hình machine learning trên một máy chủ duy nhất.
Chúng tôi sẽ giúp bạn trở thành chuyên gia Machine Learning có khả năng xử lý/phân tích dữ liệu xuất sắc.
Khóa học 'Hướng dẫn hoàn chỉnh về Machine Learning với Spark - Phần 1' sẽ giúp bạn không chỉ nắm vững cách triển khai các mô hình machine learning trên Spark mà còn phát triển thành chuyên gia machine learning có khả năng xử lý và phân tích dữ liệu xuất sắc.
Để trở thành một chuyên gia machine learning thực thụ, không chỉ cần khả năng triển khai ML mà khả năng xử lý và kết hợp dữ liệu nghiệp vụ để tạo ra mô hình ML cũng vô cùng quan trọng. Vì vậy, bạn sẽ được thực hành và làm quen với cách xử lý dữ liệu bằng SQL - công cụ được sử dụng nhiều nhất trong xử lý dữ liệu lớn tại thực tế, cũng như kỹ thuật phân tích dữ liệu dựa trên phân tích domain nghiệp vụ.
Được cấu trúc để bạn có thể phát triển năng lực xử lý/phân tích dữ liệu và triển khai ML thông qua giải thích lý thuyết chi tiết và thực hành.
Chúng tôi giải quyết những vấn đề bạn đang gặp phải.
Việc triển khai mô hình machine learning trên nền tảng Spark không hề dễ dàng. Đó là do bạn sẽ phải đối mặt với nhiều vấn đề mà các data scientist hay chuyên gia machine learning truyền thống chưa từng gặp phải, như API và framework machine learning độc đáo dựa trên đặc thù kiến trúc của Spark, cũng như xử lý dữ liệu dựa trên SQL.
Khóa học này, Hướng dẫn hoàn hảo về Machine Learning với Spark, sẽ giúp bạn phát triển khả năng giải quyết các vấn đề mà bạn đang gặp phải.
Phần đầu của khóa học 'Hướng dẫn hoàn chỉnh về Machine Learning với Spark - Phần 1' là
Phần đầu của khóa học bao gồm giải thích lý thuyết chi tiết và thực hành phong phú về các yếu tố đa dạng cấu thành nên Spark Machine Learning Framework như DataFrame, SQL, Estimator, Transformer, Pipeline, Evaluator, v.v. Thông qua đó, bạn sẽ có thể triển khai mô hình ML trong Spark một cách dễ dàng và nhanh chóng.
Ngoài ra, tôi sẽ giải thích chi tiết về cách sử dụng XGBoost và LightGBM trong Spark, cũng như cách điều chỉnh siêu tham số bằng HyperOpt dựa trên tối ưu hóa Bayesian.
Phần cuối của khóa học 'Hướng dẫn hoàn chỉnh về Machine Learning với Spark - Part 1' là
Hiện tại phần cuối khóa học được cấu thành bằng thực hành cuộc thi Instacart Market Basket Analysis trên Kaggle, nhưng do cuộc thi Instacart Market Basket Analysis đã biến mất khỏi Kaggle, nên sẽ được thay đổi thành thực hành cuộc thi Home Credit Default Risk (dự đoán nợ nhà ở) trên Kaggle (dự kiến hoàn thành trước ngày 15 tháng 1 năm 2026)
Thông qua việc xây dựng mô hình cho cuộc thi Home Credit Default Risk trên Kaggle - một cuộc thi có độ khó cao, chúng tôi sẽ giúp bạn nâng cao đồng thời khả năng xử lý/phân tích dữ liệu thực tế và khả năng xây dựng mô hình machine learning.
Thông qua bộ dữ liệu này, bạn sẽ được học chi tiết về cách xử lý và phân tích dữ liệu nghiệp vụ dựa trên SQL, thực hiện Feature Engineering, cách xác định domain phân tích trong công việc, và cách tạo mô hình dựa trên các Feature đã được xác định như vậy.
💻 Vui lòng kiểm tra trước khi đăng ký!
Tất cả code thực hành trong khóa học này đều dựa trên Python. Khóa học không đề cập đến Scala, vui lòng tham khảo trước khi chọn khóa học.
Vui lòng kiểm tra môi trường thực hành.
Khóa học này sử dụng Docker để xây dựng môi trường thực hành dựa trên Spark và Jupyter local. Môi trường thực hành được thiết lập bằng cách cài đặt Docker Desktop trên PC local, và khóa học được thiết kế để bạn có thể xây dựng môi trường thực hành mà không gặp vấn đề gì ngay cả khi không biết về Docker.
Mã thực hành và tài liệu giải thích của khóa học có thể tải xuống tại 'Tải xuống mã thực hành và tài liệu giải thích'.
Đây là khóa học yêu cầu kiến thức nền tảng.
Khóa học này được xây dựng với giả định rằng học viên đã có kiến thức về Chương 5 (Hồi quy) của Python Machine Learning Perfect Guide hoặc kiến thức tương đương, và cũng đã nắm được những phần rất cơ bản về SQL, vì vậy vui lòng tham khảo các thông tin trên khi lựa chọn khóa học.
Spark là một công cụ tốt nếu bạn biết những phần cơ bản, nhưng ngay cả khi không biết, bạn cũng sẽ không gặp vấn đề gì khi theo dõi khóa học.
Vui lòng xem trước các bài giảng!
Hướng dẫn hoàn hảo về Machine Learning với Python
Đủ rồi với những khóa học machine learning thiên về lý thuyết, Từ các khái niệm cốt lõi của machine learning đến năng lực thực chiến một cách dễ hiểu và chính xác.
Bạn muốn xem phỏng vấn người chia sẻ kiến thức? (Nhấn vào đây)
Khuyến nghị cho những người này
Khóa học này dành cho ai?
Bất kỳ ai muốn triển khai machine learning bằng Spark
Những người muốn triển khai học máy dựa trên lượng lớn dữ liệu
Bất kỳ ai muốn cải thiện kỹ thuật xử lý dữ liệu cho machine learning bằng SQL
Bất kỳ ai muốn tìm hiểu toàn bộ quá trình xử lý dữ liệu thành dạng mong muốn trong thực tế và tạo mô hình ML dựa trên đó
Bất kỳ ai muốn cải thiện khả năng phân tích dữ liệu, kỹ năng kỹ thuật tính năng và triển khai ML
Cần biết trước khi bắt đầu?
Hiểu tới Chương 5 (Hồi quy) của Hướng dẫn đầy đủ về học máy Python hoặc kiến thức tương đương của người chơi
I first got to know Professor Kwon Chul-min through the Complete Guide to Python Machine Learning. Thanks to that lecture, I, a non-major, was able to not give up on this field that I had been thinking of giving up on.
I am currently working in this field and studying steadily by taking Infraon lectures. I wanted to thank the teacher, so I first thanked the teacher in the Q&A session, and the teacher encouraged me that if I continued to study, I would be able to achieve what I had worked for.
I plan to continue to listen to the teacher's lectures in the future. ^^ㅎㅎ He really teaches so well.
Professor Kwon Chul-min, I would like to take this opportunity to sincerely thank you.
I am even more impressed that you left such a touching review. I think I should be the one to thank you for the writing that instantly rewards the hard work you put into creating the lecture. If you continue to work hard like this, you will definitely achieve everything you want. Thank you.
I am a student who has been attending Kwon Chul-min's lecture series! Thank you for continuing to provide high-quality lectures! And I have seen several Spark lectures in Scala and Java, but this is the first time I have seen a lecture that teaches Spark in Python, so I think it was even better! Although I have not completed the course yet, I still like how he tries to teach simple grammar as easily as possible! And I also like how he provides various practice materials to encourage repeated mastery! I look forward to other lectures in the future!