Hướng dẫn đầy đủ về Spark Machine Learning - Phần 1
Từ việc hiểu khung cốt lõi của học máy Spark, xử lý dữ liệu dựa trên SQL thông qua các vấn đề thực tế có độ khó cao, phân tích dữ liệu thông qua phân tích miền kinh doanh và khả năng triển khai các mô hình học máy được tối ưu hóa, bạn sẽ trở thành chuyên gia học máy dựa trên số lượng lớn data. Nếu bạn muốn được công nhận, hãy tham gia bài giảng này.
Hiểu biết chi tiết về DataFrame, nền tảng xử lý dữ liệu của Spark
Hiểu các yếu tố kỹ thuật khác nhau tạo nên Khung học máy Spark
Tìm hiểu về quy trình học máy của Spark
Khả năng sử dụng SQL để phân tích dữ liệu
Kỹ thuật Kỹ thuật tính năng dựa trên SQL
Triển khai mô hình với XGBoost và LightGBM trong Spark
Phương pháp điều chỉnh siêu tham số mô hình dựa trên tối ưu hóa Bayesian
Đồng thời cải thiện kỹ năng phân tích dữ liệu và triển khai mô hình ML của bạn thông qua các bài toán thực tế đầy thách thức
Phương pháp phân tích dữ liệu dựa trên miền phân tích
Các kỹ thuật trực quan hóa dữ liệu khác nhau
[Thông báo] Databricks Community Edition được cung cấp miễn phí trên nền tảng đám mây làm môi trường thực hành cho khóa học này không còn cho phép đăng ký mới. Do đó, xin thông báo rằng môi trường thực hành đã được thay đổi sang môi trường Spark và Jupyter cục bộ kể từ ngày 5 tháng 12 năm 2025.
Do việc thay đổi sang môi trường local chỉ ảnh hưởng đến một phần mã thực hành, nên phần lớn các video bài giảng từ Mục 1 đến Mục 10 vẫn sử dụng nguyên bản các video đã quay trước đó trên Databricks Community, và chỉ có những phần thay đổi chính được cấu trúc lại thành video bài giảng thực hành mới trên Spark local. Ngoài ra, từ Mục 11 trở đitất cả đều là video thực hành trên Spark local và khóa học sẽ được cấu trúc mới hoàn toàn vào ngày 15 tháng 1 năm 2026, vui lòng tham khảo khi lựa chọn khóa học.
Phân tích dữ liệu + Kỹ thuật đặc trưng + Triển khai ML, Nắm vững cả ba kỹ năng cùng một lúc.
Cuộc gặp gỡ giữa Apache Spark và Machine Learning.
Giải pháp xử lý phân tán quy mô lớn mã nguồn mở mạnh nhất Apache Spark đã kết hợp với Machine Learning.
Nhiều tập đoàn lớn và tổ chức tài chính trong nước đang sử dụng Apache Spark để phân tích dữ liệu lớn và xây dựng các mô hình machine learning. Vì Spark dựa trên framework xử lý dữ liệu phân tán, nên có thể mở rộng quy mô từ vài máy chủ đến hàng chục máy chủ để xử lý dữ liệu lớn và tạo các mô hình ML. Do đó, có thể vượt qua giới hạn của scikit-learn chỉ có thể triển khai mô hình machine learning trên một máy chủ duy nhất.
Chúng tôi sẽ giúp bạn trở thành chuyên gia Machine Learning có khả năng xử lý/phân tích dữ liệu xuất sắc.
Khóa học 'Hướng dẫn hoàn chỉnh về Machine Learning với Spark - Phần 1' sẽ giúp bạn không chỉ nắm vững cách triển khai các mô hình machine learning trên Spark mà còn phát triển thành chuyên gia machine learning có khả năng xử lý và phân tích dữ liệu xuất sắc.
Để trở thành một chuyên gia machine learning thực thụ, không chỉ cần khả năng triển khai ML mà khả năng xử lý và kết hợp dữ liệu nghiệp vụ để tạo ra mô hình ML cũng vô cùng quan trọng. Vì vậy, bạn sẽ được thực hành và làm quen với cách xử lý dữ liệu bằng SQL - công cụ được sử dụng nhiều nhất trong xử lý dữ liệu lớn tại thực tế, cũng như kỹ thuật phân tích dữ liệu dựa trên phân tích domain nghiệp vụ.
Được cấu trúc để bạn có thể phát triển năng lực xử lý/phân tích dữ liệu và triển khai ML thông qua giải thích lý thuyết chi tiết và thực hành.
Chúng tôi giải quyết những vấn đề bạn đang gặp phải.
Việc triển khai mô hình machine learning trên nền tảng Spark không hề dễ dàng. Đó là do bạn sẽ phải đối mặt với nhiều vấn đề mà các data scientist hay chuyên gia machine learning truyền thống chưa từng gặp phải, như API và framework machine learning độc đáo dựa trên đặc thù kiến trúc của Spark, cũng như xử lý dữ liệu dựa trên SQL.
Khóa học này, Hướng dẫn hoàn hảo về Machine Learning với Spark, sẽ giúp bạn phát triển khả năng giải quyết các vấn đề mà bạn đang gặp phải.
Phần đầu của khóa học 'Hướng dẫn hoàn chỉnh về Machine Learning với Spark - Phần 1' là
Phần đầu của khóa học bao gồm giải thích lý thuyết chi tiết và thực hành phong phú về các yếu tố đa dạng cấu thành nên Spark Machine Learning Framework như DataFrame, SQL, Estimator, Transformer, Pipeline, Evaluator, v.v. Thông qua đó, bạn sẽ có thể triển khai mô hình ML trong Spark một cách dễ dàng và nhanh chóng.
Ngoài ra, tôi sẽ giải thích chi tiết về cách sử dụng XGBoost và LightGBM trong Spark, cũng như cách điều chỉnh siêu tham số bằng HyperOpt dựa trên tối ưu hóa Bayesian.
Phần cuối của khóa học 'Hướng dẫn hoàn chỉnh về Machine Learning với Spark - Part 1' là
Hiện tại phần cuối khóa học được cấu thành bằng thực hành cuộc thi Instacart Market Basket Analysis trên Kaggle, nhưng do cuộc thi Instacart Market Basket Analysis đã biến mất khỏi Kaggle, nên sẽ được thay đổi thành thực hành cuộc thi Home Credit Default Risk (dự đoán nợ nhà ở) trên Kaggle (dự kiến hoàn thành trước ngày 15 tháng 1 năm 2026)
Thông qua việc xây dựng mô hình cho cuộc thi Home Credit Default Risk trên Kaggle - một cuộc thi có độ khó cao, chúng tôi sẽ giúp bạn nâng cao đồng thời khả năng xử lý/phân tích dữ liệu thực tế và khả năng xây dựng mô hình machine learning.
Thông qua bộ dữ liệu này, bạn sẽ được học chi tiết về cách xử lý và phân tích dữ liệu nghiệp vụ dựa trên SQL, thực hiện Feature Engineering, cách xác định domain phân tích trong công việc, và cách tạo mô hình dựa trên các Feature đã được xác định như vậy.
💻 Vui lòng kiểm tra trước khi đăng ký!
Tất cả code thực hành trong khóa học này đều dựa trên Python. Khóa học không đề cập đến Scala, vui lòng tham khảo trước khi chọn khóa học.
Vui lòng kiểm tra môi trường thực hành.
Khóa học này sử dụng Docker để xây dựng môi trường thực hành dựa trên Spark và Jupyter local. Môi trường thực hành được thiết lập bằng cách cài đặt Docker Desktop trên PC local, và khóa học được thiết kế để bạn có thể xây dựng môi trường thực hành mà không gặp vấn đề gì ngay cả khi không biết về Docker.
Mã thực hành và tài liệu giải thích của khóa học có thể tải xuống tại 'Tải xuống mã thực hành và tài liệu giải thích'.
Đây là khóa học yêu cầu kiến thức nền tảng.
Khóa học này được xây dựng với giả định rằng học viên đã có kiến thức về Chương 5 (Hồi quy) của Python Machine Learning Perfect Guide hoặc kiến thức tương đương, và cũng đã nắm được những phần rất cơ bản về SQL, vì vậy vui lòng tham khảo các thông tin trên khi lựa chọn khóa học.
Spark là một công cụ tốt nếu bạn biết những phần cơ bản, nhưng ngay cả khi không biết, bạn cũng sẽ không gặp vấn đề gì khi theo dõi khóa học.
Vui lòng xem trước các bài giảng!
Hướng dẫn hoàn hảo về Machine Learning với Python
Đủ rồi với những khóa học machine learning thiên về lý thuyết, Từ các khái niệm cốt lõi của machine learning đến năng lực thực chiến một cách dễ hiểu và chính xác.
Bạn muốn xem phỏng vấn người chia sẻ kiến thức? (Nhấn vào đây)
Khuyến nghị cho những người này
Khóa học này dành cho ai?
Bất kỳ ai muốn triển khai machine learning bằng Spark
Những người muốn triển khai học máy dựa trên lượng lớn dữ liệu
Bất kỳ ai muốn cải thiện kỹ thuật xử lý dữ liệu cho machine learning bằng SQL
Bất kỳ ai muốn tìm hiểu toàn bộ quá trình xử lý dữ liệu thành dạng mong muốn trong thực tế và tạo mô hình ML dựa trên đó
Bất kỳ ai muốn cải thiện khả năng phân tích dữ liệu, kỹ năng kỹ thuật tính năng và triển khai ML
Cần biết trước khi bắt đầu?
Hiểu tới Chương 5 (Hồi quy) của Hướng dẫn đầy đủ về học máy Python hoặc kiến thức tương đương của người chơi
Lần đầu tiên tôi biết đến Giáo sư Cheolmin Kwon thông qua hướng dẫn đầy đủ về học máy Python. Qua bài giảng đó, tôi, một người không chuyên ngành, đã không thể từ bỏ lĩnh vực mà tôi đã định từ bỏ.
Hiện tại, khi làm việc trong lĩnh vực này, tôi đang tham gia các bài giảng về cơ sở hạ tầng và học tập đều đặn. Tôi muốn nói lời cảm ơn đến giáo viên của mình nên trước tiên tôi đã nói lời cảm ơn đến giáo viên của mình trong phần hỏi đáp, giáo viên đã động viên tôi và nói với tôi rằng tôi sẽ có thể đạt được những gì tôi đã học tập chăm chỉ nếu tôi tiếp tục. làm như vậy.
Tôi dự định sẽ tiếp tục nghe các bài giảng của bạn trong tương lai. ^^ㅎㅎ Anh ấy dạy rất hay.
Cô Cheolmin Kwon, tôi muốn nhân cơ hội này để gửi lời cảm ơn sâu sắc nhất đến cô.
Tôi càng ấn tượng hơn khi bạn để lại một bài phê bình bài giảng ấm áp như vậy. Tôi nghĩ mình nên biết ơn vì đây là bài viết bù đắp cho công sức soạn bài giảng chỉ trong chốc lát. Nếu bạn tiếp tục làm việc chăm chỉ như thế này trong tương lai, bạn chắc chắn sẽ đạt được mọi thứ mình mong muốn. Cảm ơn
Thật tốt khi tập trung vào cách diễn đạt và giọng nói của người hướng dẫn, đồng thời nội dung cũng chắc chắn. Hãy tiếp tục làm những bài giảng hay. Cảm ơn
Tôi là một sinh viên đã tham dự loạt bài giảng của Cheolmin Kwon! Cảm ơn bạn vẫn cung cấp những bài giảng chất lượng! Tôi đã xem một số bài giảng Spark về Scala và Java, nhưng tôi nghĩ nó thậm chí còn hay hơn vì đây là bài giảng đầu tiên dạy Spark bằng Python! Dù mình chưa phải là người bướng bỉnh nhưng tốt nhất bạn vẫn nên cố gắng dạy những ngữ pháp đơn giản một cách dễ dàng nhất có thể! Bạn cũng nên cung cấp nhiều tài liệu thực hành khác nhau để khuyến khích khả năng thành thạo lặp đi lặp lại! Tôi đang mong chờ những bài giảng khác trong tương lai!