Hướng dẫn hoàn hảo về Spark Machine Learning - Phần 1
Nếu bạn muốn được công nhận là chuyên gia học máy trên nền tảng dữ liệu lớn, từ việc thấu hiểu Framework cốt lõi của Spark Machine Learning, xử lý dữ liệu dựa trên SQL thông qua các bài toán thực tế có độ khó cao, đến khả năng phân tích dữ liệu qua phân tích miền nghiệp vụ và triển khai mô hình học máy tối ưu, hãy đồng hành cùng khóa học này.
Lần đầu tiên tôi biết đến Giáo sư Cheolmin Kwon thông qua hướng dẫn đầy đủ về học máy Python. Qua bài giảng đó, tôi, một người không chuyên ngành, đã không thể từ bỏ lĩnh vực mà tôi đã định từ bỏ.
Hiện tại, khi làm việc trong lĩnh vực này, tôi đang tham gia các bài giảng về cơ sở hạ tầng và học tập đều đặn. Tôi muốn nói lời cảm ơn đến giáo viên của mình nên trước tiên tôi đã nói lời cảm ơn đến giáo viên của mình trong phần hỏi đáp, giáo viên đã động viên tôi và nói với tôi rằng tôi sẽ có thể đạt được những gì tôi đã học tập chăm chỉ nếu tôi tiếp tục. làm như vậy.
Tôi dự định sẽ tiếp tục nghe các bài giảng của bạn trong tương lai. ^^ㅎㅎ Anh ấy dạy rất hay.
Cô Cheolmin Kwon, tôi muốn nhân cơ hội này để gửi lời cảm ơn sâu sắc nhất đến cô.
5.0
egs41
10% đã tham gia
Thật tốt khi tập trung vào cách diễn đạt và giọng nói của người hướng dẫn, đồng thời nội dung cũng chắc chắn. Hãy tiếp tục làm những bài giảng hay. Cảm ơn
5.0
밑바닥개발자
54% đã tham gia
Tôi là một sinh viên đã tham dự loạt bài giảng của Cheolmin Kwon! Cảm ơn bạn vẫn cung cấp những bài giảng chất lượng! Tôi đã xem một số bài giảng Spark về Scala và Java, nhưng tôi nghĩ nó thậm chí còn hay hơn vì đây là bài giảng đầu tiên dạy Spark bằng Python! Dù mình chưa phải là người bướng bỉnh nhưng tốt nhất bạn vẫn nên cố gắng dạy những ngữ pháp đơn giản một cách dễ dàng nhất có thể! Bạn cũng nên cung cấp nhiều tài liệu thực hành khác nhau để khuyến khích khả năng thành thạo lặp đi lặp lại! Tôi đang mong chờ những bài giảng khác trong tương lai!
Bạn sẽ nhận được điều này sau khi học.
Triển khai mô hình học máy trong Spark
Tìm hiểu chi tiết về DataFrame, nền tảng xử lý dữ liệu của Spark
Hiểu các yếu tố kỹ thuật đa dạng cấu thành nên Framework Spark Machine Learning
Tìm hiểu về Pipeline Machine Learning của Spark
Kỹ năng sử dụng SQL trong phân tích dữ liệu
Các kỹ thuật Feature Engineering dựa trên SQL
Triển khai mô hình với XGBoost và LightGBM trong Spark
Phương pháp tinh chỉnh siêu tham số của mô hình dựa trên tối ưu hóa Bayesian
Nâng cao đồng thời kỹ năng phân tích dữ liệu và triển khai mô hình ML thông qua các bài toán thực tế có độ khó cao
Phương pháp phân tích dữ liệu dựa trên miền phân tích
Các kỹ thuật trực quan hóa dữ liệu khác nhau
[Thông báo] Databricks Community Edition, môi trường thực hành dựa trên đám mây được cung cấp miễn phí cho khóa học này, hiện không còn cho phép đăng ký mới. Do đó, chúng tôi xin thông báo rằng môi trường thực hành sẽ được thay đổi sang Spark cục bộ và Jupyter kể từ ngày 5 tháng 12 năm 2025.
Việc thay đổi mã thực hành do chuyển sang môi trường local chỉ giới hạn ở một số phần, nên hầu hết các video bài giảng từ Phần 1 đến Phần 10 vẫn sử dụng các video đã quay trước đó trên Databricks Community, và bài giảng mới được cấu trúc với các video thực hành trên Spark local chỉ cho những thay đổi chính. Từ Phần 11 trở đi, nhiều bài giảng đã được thay đổi thành video thực hành trên Spark local.
Khóa học hiện tại được cấu tạo xen kẽ giữa các video đã ghi hình trước đó dựa trên Databricks Community và các video mới dựa trên Spark cục bộ, vì vậy xin vui lòng tham khảo khi lựa chọn bài giảng.
Phân tích dữ liệu + Kỹ thuật đặc trưng + Triển khai ML, hãy nắm bắt cả ba kỹ năng cùng một lúc.
Sự kết hợp giữa Apache Spark và Machine Learning.
Apache Spark, giải pháp xử lý phân tán dữ liệu lớn mã nguồn mở mạnh mẽ nhất, đã kết hợp cùng Machine Learning.
Nhiều tập đoàn lớn và tổ chức tài chính tại Hàn Quốc đang sử dụng Apache Spark để phân tích dữ liệu lớn và xây dựng các mô hình học máy. Vì Spark dựa trên khung xử lý dữ liệu phân tán, nó có thể xử lý dữ liệu quy mô lớn và tạo ra các mô hình ML bằng cách mở rộng dung lượng trên từ vài máy chủ cho đến hàng chục máy chủ. Do đó, nó có thể vượt qua những giới hạn của Scikit-learn, vốn chỉ có thể triển khai các mô hình học máy trên một máy chủ duy nhất.
Chúng tôi sẽ giúp bạn trở nên thành thạo trong việc xử lý/phân tích dữ liệu và phát triển thành một chuyên gia máy học thực thụ.
Khóa học 'Spark Machine Learning Hoàn chỉnh - Phần 1' không chỉ giúp bạn nắm vững cách triển khai các mô hình học máy trên Spark mà còn giúp bạn phát triển thành một chuyên gia học máy thành thạo cả trong việc xử lý và phân tích dữ liệu.
Để trở thành một chuyên gia học máy thực thụ, không chỉ khả năng triển khai ML mà khả năng xử lý và kết hợp dữ liệu nghiệp vụ để tạo ra mô hình ML cũng vô cùng quan trọng. Để đạt được điều này, bạn sẽ được học cách xử lý dữ liệu bằng SQL, công cụ được sử dụng phổ biến nhất để xử lý dữ liệu lớn trong thực tế, và kỹ thuật phân tích dữ liệu dựa trên phân tích miền nghiệp vụ thông qua các bài thực hành.
Nội dung được thiết kế để giúp bạn phát triển kỹ năng xử lý/phân tích dữ liệu và triển khai ML thông qua các giải thích lý thuyết chi tiết và thực hành.
Chúng tôi sẽ giải quyết những vấn đề mà các bạn đang đối mặt.
Việc triển khai các mô hình học máy trên nền tảng Spark không hề dễ dàng. Đó là bởi vì các chuyên gia dữ liệu hay chuyên gia học máy sẽ phải đối mặt với nhiều vấn đề chưa từng gặp trước đây, chẳng hạn như các API và framework học máy độc đáo dựa trên tính đặc thù của kiến trúc Spark, cũng như việc xử lý dữ liệu dựa trên SQL.
Thông qua khóa học này, Hướng dẫn hoàn chỉnh về Spark Machine Learning, tôi sẽ giúp bạn nuôi dưỡng khả năng giải quyết các vấn đề mà bạn đang gặp phải.
Phần đầu của khóa học 'Hướng dẫn hoàn hảo về Spark Machine Learning - Phần 1' là
Phần đầu của bài giảng bao gồm các giải thích lý thuyết chi tiết và các bài thực hành phong phú về các thành phần khác nhau cấu thành nên Spark Machine Learning Framework như DataFrame, SQL, Estimator, Transformer, Pipeline, Evaluator. Thông qua đó, bạn sẽ có thể triển khai các mô hình ML trên Spark một cách dễ dàng và nhanh chóng.
Ngoài ra, tôi sẽ giải thích chi tiết về cách sử dụng LightGBM trong Spark và cách điều chỉnh các siêu tham số (hyperparameter tuning) bằng HyperOpt dựa trên tối ưu hóa Bayesian.
Phần sau của bài giảng 'Hướng dẫn hoàn chỉnh về Spark Machine Learning - Phần 1' là
Phần sau của bài giảng bao gồm phần thực hành về cuộc thi Instacart Market Basket Analysis của Kaggle.
Thông qua việc triển khai mô hình cho cuộc thi Instacart Market Basket Analysis của Kaggle, một cuộc thi có độ khó cao, chúng tôi sẽ giúp bạn đồng thời nâng cao khả năng xử lý/phân tích dữ liệu thực tế và khả năng triển khai mô hình học máy của mình.
Thông qua bộ dữ liệu này, bạn sẽ được học chi tiết về cách xử lý và phân tích dữ liệu nghiệp vụ trên nền tảng SQL, cách thực hiện Feature Engineering, cũng như cách rút trích các miền phân tích (analysis domains) trong công việc, và cách tạo ra các mô hình dựa trên những Feature đã được rút trích đó.
💻 Vui lòng kiểm tra trước khi học!
Tất cả mã thực hành trong khóa học này đều dựa trên Python. Scala không được đề cập, vui lòng tham khảo trước khi chọn khóa học.
Vui lòng kiểm tra môi trường thực hành.
Khóa học này sử dụng Docker để thiết lập môi trường thực hành dựa trên Spark cục bộ và Jupyter. Môi trường thực hành được thiết lập bằng cách cài đặt Docker Desktop trên máy tính cá nhân, và khóa học được thiết kế để bạn không gặp bất kỳ vấn đề nào trong việc xây dựng môi trường thực hành ngay cả khi không biết về Docker.
Mã thực hành và tài liệu giải thích bài giảng có thể được tải xuống tại '실습코드와 설명자료 다운로드 받기'.
Đây là bài giảng yêu cầu kiến thức tiên quyết.
Khóa học này được thiết kế dựa trên giả định rằng học viên đã có kiến thức về Chương 5 (Hồi quy) của cuốn Cẩm nang hoàn chỉnh về Machine Learning với Python hoặc kiến thức tương đương, đồng thời đã biết những phần cực kỳ cơ bản về SQL, vì vậy xin vui lòng tham khảo các lưu ý trên khi lựa chọn khóa học.
Sẽ tốt hơn nếu bạn biết những phần cơ bản về Spark, nhưng nếu không biết thì bạn cũng sẽ không gặp vấn đề gì trong việc theo kịp bài giảng.
Vui lòng kiểm tra các bài giảng tiên quyết!
Hướng dẫn hoàn hảo về Python Machine Learning
Dừng lại các bài giảng học máy thiên về lý thuyết, từ các khái niệm cốt lõi của học máy đến năng lực thực chiến một cách dễ dàng và chính xác.
Bạn có tò mò về cuộc phỏng vấn với người chia sẻ kiến thức không? (Nhấp vào đây)
Khuyến nghị cho những người này
Khóa học này dành cho ai?
Những người muốn triển khai machine learning bằng cách sử dụng Spark
Những người muốn triển khai học máy dựa trên dữ liệu lớn
Những người muốn cải thiện kỹ thuật xử lý dữ liệu cho học máy bằng cách sử dụng SQL
Những người muốn học toàn bộ quy trình từ việc xử lý dữ liệu theo hình thức mong muốn trong thực tế cho đến việc tạo mô hình ML dựa trên đó.
Những người muốn cùng lúc nâng cao khả năng phân tích dữ liệu, kỹ năng Feature Engineering và triển khai ML.
Cần biết trước khi bắt đầu?
Hiểu nội dung cho đến Chương 5 (Hồi quy) của cuốn "Python Machine Learning Guide" hoặc có kiến thức nền tảng tương đương.
Tôi là một sinh viên đã tham dự loạt bài giảng của Cheolmin Kwon! Cảm ơn bạn vẫn cung cấp những bài giảng chất lượng! Tôi đã xem một số bài giảng Spark về Scala và Java, nhưng tôi nghĩ nó thậm chí còn hay hơn vì đây là bài giảng đầu tiên dạy Spark bằng Python! Dù mình chưa phải là người bướng bỉnh nhưng tốt nhất bạn vẫn nên cố gắng dạy những ngữ pháp đơn giản một cách dễ dàng nhất có thể! Bạn cũng nên cung cấp nhiều tài liệu thực hành khác nhau để khuyến khích khả năng thành thạo lặp đi lặp lại! Tôi đang mong chờ những bài giảng khác trong tương lai!
Lần đầu tiên tôi biết đến Giáo sư Cheolmin Kwon thông qua hướng dẫn đầy đủ về học máy Python. Qua bài giảng đó, tôi, một người không chuyên ngành, đã không thể từ bỏ lĩnh vực mà tôi đã định từ bỏ.
Hiện tại, khi làm việc trong lĩnh vực này, tôi đang tham gia các bài giảng về cơ sở hạ tầng và học tập đều đặn. Tôi muốn nói lời cảm ơn đến giáo viên của mình nên trước tiên tôi đã nói lời cảm ơn đến giáo viên của mình trong phần hỏi đáp, giáo viên đã động viên tôi và nói với tôi rằng tôi sẽ có thể đạt được những gì tôi đã học tập chăm chỉ nếu tôi tiếp tục. làm như vậy.
Tôi dự định sẽ tiếp tục nghe các bài giảng của bạn trong tương lai. ^^ㅎㅎ Anh ấy dạy rất hay.
Cô Cheolmin Kwon, tôi muốn nhân cơ hội này để gửi lời cảm ơn sâu sắc nhất đến cô.
Tôi càng ấn tượng hơn khi bạn để lại một bài phê bình bài giảng ấm áp như vậy. Tôi nghĩ mình nên biết ơn vì đây là bài viết bù đắp cho công sức soạn bài giảng chỉ trong chốc lát. Nếu bạn tiếp tục làm việc chăm chỉ như thế này trong tương lai, bạn chắc chắn sẽ đạt được mọi thứ mình mong muốn. Cảm ơn
Thật tốt khi tập trung vào cách diễn đạt và giọng nói của người hướng dẫn, đồng thời nội dung cũng chắc chắn. Hãy tiếp tục làm những bài giảng hay. Cảm ơn