Hướng dẫn đầy đủ về Spark Machine Learning - Phần 1
Từ việc hiểu khung cốt lõi của học máy Spark, xử lý dữ liệu dựa trên SQL thông qua các vấn đề thực tế có độ khó cao, phân tích dữ liệu thông qua phân tích miền kinh doanh và khả năng triển khai các mô hình học máy được tối ưu hóa, bạn sẽ trở thành chuyên gia học máy dựa trên số lượng lớn data. Nếu bạn muốn được công nhận, hãy tham gia bài giảng này.
Hiểu biết chi tiết về DataFrame, nền tảng xử lý dữ liệu của Spark
Hiểu các yếu tố kỹ thuật khác nhau tạo nên Khung học máy Spark
Tìm hiểu về quy trình học máy của Spark
Khả năng sử dụng SQL để phân tích dữ liệu
Kỹ thuật Kỹ thuật tính năng dựa trên SQL
Triển khai mô hình với XGBoost và LightGBM trong Spark
Phương pháp điều chỉnh siêu tham số mô hình dựa trên tối ưu hóa Bayesian
Đồng thời cải thiện kỹ năng phân tích dữ liệu và triển khai mô hình ML của bạn thông qua các bài toán thực tế đầy thách thức
Phương pháp phân tích dữ liệu dựa trên miền phân tích
Các kỹ thuật trực quan hóa dữ liệu khác nhau
Phân tích dữ liệu + kỹ thuật tính năng + triển khai ML, Nắm vững ba năng lực cùng một lúc.
Với Apache Spark Cuộc họp của máy học.
Apache Spark, công ty hàng đầu về các giải pháp xử lý phân tán quy mô lớn nguồn mở, đã gặp gỡ Machine Learning .
Nhiều tập đoàn và tổ chức tài chính lớn trong nước đang tận dụng Apache Spark để phân tích lượng dữ liệu lớn và xây dựng các mô hình học máy. Nhờ dựa trên nền tảng xử lý dữ liệu phân tán, Spark có thể mở rộng quy mô trên vài đến hàng chục máy chủ, xử lý lượng dữ liệu lớn và xây dựng các mô hình học máy. Điều này cho phép Spark khắc phục những hạn chế của scikit-learn, vốn chỉ cho phép triển khai các mô hình học máy trên một máy chủ duy nhất.
Cũng giỏi xử lý/phân tích dữ liệu Là một chuyên gia về máy học Tôi sẽ giúp bạn phát triển.
Khóa học 'Hướng dẫn đầy đủ về Spark Machine Learning - Phần 1' không chỉ dạy bạn cách triển khai các mô hình học máy trong Spark mà còn giúp bạn trở thành chuyên gia về học máy có kỹ năng xử lý và phân tích dữ liệu .
Để trở thành một chuyên gia học máy thực thụ, điều quan trọng không chỉ là nắm vững các kỹ năng triển khai ML mà còn phải hiểu cách xử lý và kết hợp dữ liệu kinh doanh để tạo ra các mô hình ML. Để đạt được điều này, bạn sẽ học cách xử lý dữ liệu bằng SQL, ngôn ngữ được sử dụng phổ biến nhất để xử lý dữ liệu quy mô lớn , và nắm vững các kỹ thuật phân tích dữ liệu thực hành dựa trên phân tích miền .
Khóa học được thiết kế để giúp bạn phát triển khả năng xử lý/phân tích dữ liệu và triển khai ML thông qua các giải thích lý thuyết chi tiết và đào tạo thực hành.
Những vấn đề bạn sẽ phải đối mặt Chúng tôi sẽ giải quyết vấn đề này cho bạn.
Việc triển khai các mô hình học máy trên Spark rất khó khăn. Nguyên nhân là do nó đặt ra nhiều thách thức mà các nhà khoa học dữ liệu và chuyên gia học máy truyền thống chưa quen thuộc, bao gồm các API và framework học máy độc đáo dựa trên kiến trúc của Spark, cũng như xử lý dữ liệu dựa trên SQL.
Khóa học này, Hướng dẫn đầy đủ về Spark Machine Learning, sẽ giúp bạn giải quyết những vấn đề bạn gặp phải .
Nửa đầu của bài giảng 'Hướng dẫn đầy đủ về Spark Machine Learning - Phần 1'
Nửa đầu của khóa học bao gồm các giải thích lý thuyết chi tiết và thực hành chuyên sâu về các thành phần khác nhau của Khung học máy Spark, bao gồm DataFrames, SQL, Estimators, Transformers, Pipelines và Evaluators. Điều này sẽ cho phép bạn triển khai các mô hình ML trong Spark một cách nhanh chóng và dễ dàng .
Chúng tôi cũng sẽ giải thích chi tiết cách sử dụng XGBoost và LightGB trong Spark và cách điều chỉnh siêu tham số bằng HyperOpt dựa trên tối ưu hóa Bayesian.
Phần sau của bài giảng 'Hướng dẫn đầy đủ về Spark Machine Learning - Phần 1'
Nửa sau của khóa học sẽ tập trung vào việc thực hành cuộc thi Phân tích Giỏ hàng Instacart của Kaggle, đồng thời cải thiện kỹ năng xử lý/phân tích dữ liệu thực tế và triển khai mô hình học máy. Cuộc thi Instacart của Kaggle là một cuộc thi đầy thách thức, đặc biệt là khi xét đến cấu trúc của tập dữ liệu, bao gồm các bảng xử lý đơn hàng thương mại điện tử (sản phẩm, đơn hàng và mặt hàng trong đơn hàng).
Thông qua tập dữ liệu này, bạn sẽ tìm hiểu chi tiết cách xử lý và phân tích dữ liệu kinh doanh dựa trên SQL, thực hiện kỹ thuật tính năng, rút ra miền phân tích từ kinh doanh và tạo mô hình dựa trên các tính năng đã rút ra.
Đây là Phần 1 của "Hướng dẫn đầy đủ về Spark Machine Learning". Phần 2 , dự kiến phát hành sau, sẽ đề cập đến phân tích văn bản, khuyến nghị và phân tích chuỗi thời gian.
💻 Vui lòng kiểm tra trước khi tham gia lớp học!
Toàn bộ mã thực hành trong khóa học này được viết bằng Python. Scala không được đề cập, vì vậy vui lòng tham khảo thông tin này trước khi chọn khóa học.
Môi trường thực hành Vui lòng kiểm tra.
Khóa đào tạo thực hành này sử dụng Databricks. Databricks cung cấp môi trường sổ ghi chép để xây dựng các ứng dụng dựa trên Spark trên đám mây mà không cần cài đặt Spark.
Databricks chính thức có sẵn để sử dụng miễn phí trong 14 ngày dưới dạng phiên bản cộng đồng . Và trong bài giảng video ' Quản lý cụm Spark trên Databricks và sử dụng Databricks ngay cả sau 2 tuần đăng ký ' ở Phần 0, tôi giải thích cách bạn có thể tiếp tục sử dụng miễn phí sau 14 ngày, vì vậy hãy xem video đó một cách cẩn thận (để biết giải thích về phiên bản Cộng đồng Databricks, vui lòng tham khảo liên kết ).
Bạn có thể tải xuống mã thực hành bài giảng và tài liệu giải thích bài giảng từ 'Tải xuống mã thực hành và tài liệu giải thích' .
Kiến thức của người chơi Đây là bài giảng cần thiết.
Khóa học này được thiết kế với giả định rằng sinh viên đã có kiến thức về Chương 5 (Hồi quy) của cuốn Hướng dẫn Toàn diện về Học máy Python hoặc tương đương, và cũng có hiểu biết rất cơ bản về SQL . Vui lòng tham khảo thông tin trên khi chọn khóa học.
Biết những kiến thức cơ bản về Spark rất hữu ích, nhưng bạn vẫn có thể theo học khóa học mà không cần bất kỳ kiến thức nào trước đó.
Hãy xem bài giảng của người chơi nhé!
Hướng dẫn đầy đủ về Học máy Python
Ngừng giảng dạy về máy học dựa trên lý thuyết. Từ các khái niệm cốt lõi về máy học đến các kỹ năng thực tế, một cách dễ dàng và chính xác.
Bạn có tò mò về cuộc phỏng vấn với người chia sẻ kiến thức không? (Nhấp)
Khuyến nghị cho những người này
Khóa học này dành cho ai?
Bất kỳ ai muốn triển khai machine learning bằng Spark
Những người muốn triển khai học máy dựa trên lượng lớn dữ liệu
Bất kỳ ai muốn cải thiện kỹ thuật xử lý dữ liệu cho machine learning bằng SQL
Bất kỳ ai muốn tìm hiểu toàn bộ quá trình xử lý dữ liệu thành dạng mong muốn trong thực tế và tạo mô hình ML dựa trên đó
Bất kỳ ai muốn cải thiện khả năng phân tích dữ liệu, kỹ năng kỹ thuật tính năng và triển khai ML
Cần biết trước khi bắt đầu?
Hiểu tới Chương 5 (Hồi quy) của Hướng dẫn đầy đủ về học máy Python hoặc kiến thức tương đương của người chơi
Lần đầu tiên tôi biết đến Giáo sư Cheolmin Kwon thông qua hướng dẫn đầy đủ về học máy Python. Qua bài giảng đó, tôi, một người không chuyên ngành, đã không thể từ bỏ lĩnh vực mà tôi đã định từ bỏ.
Hiện tại, khi làm việc trong lĩnh vực này, tôi đang tham gia các bài giảng về cơ sở hạ tầng và học tập đều đặn. Tôi muốn nói lời cảm ơn đến giáo viên của mình nên trước tiên tôi đã nói lời cảm ơn đến giáo viên của mình trong phần hỏi đáp, giáo viên đã động viên tôi và nói với tôi rằng tôi sẽ có thể đạt được những gì tôi đã học tập chăm chỉ nếu tôi tiếp tục. làm như vậy.
Tôi dự định sẽ tiếp tục nghe các bài giảng của bạn trong tương lai. ^^ㅎㅎ Anh ấy dạy rất hay.
Cô Cheolmin Kwon, tôi muốn nhân cơ hội này để gửi lời cảm ơn sâu sắc nhất đến cô.
Tôi càng ấn tượng hơn khi bạn để lại một bài phê bình bài giảng ấm áp như vậy. Tôi nghĩ mình nên biết ơn vì đây là bài viết bù đắp cho công sức soạn bài giảng chỉ trong chốc lát. Nếu bạn tiếp tục làm việc chăm chỉ như thế này trong tương lai, bạn chắc chắn sẽ đạt được mọi thứ mình mong muốn. Cảm ơn
Thật tốt khi tập trung vào cách diễn đạt và giọng nói của người hướng dẫn, đồng thời nội dung cũng chắc chắn. Hãy tiếp tục làm những bài giảng hay. Cảm ơn
Tôi là một sinh viên đã tham dự loạt bài giảng của Cheolmin Kwon! Cảm ơn bạn vẫn cung cấp những bài giảng chất lượng! Tôi đã xem một số bài giảng Spark về Scala và Java, nhưng tôi nghĩ nó thậm chí còn hay hơn vì đây là bài giảng đầu tiên dạy Spark bằng Python! Dù mình chưa phải là người bướng bỉnh nhưng tốt nhất bạn vẫn nên cố gắng dạy những ngữ pháp đơn giản một cách dễ dàng nhất có thể! Bạn cũng nên cung cấp nhiều tài liệu thực hành khác nhau để khuyến khích khả năng thành thạo lặp đi lặp lại! Tôi đang mong chờ những bài giảng khác trong tương lai!