inflearn logo
inflearn logo

Hướng dẫn đầy đủ về Spark Machine Learning - Phần 1

Từ việc hiểu khung cốt lõi của học máy Spark, xử lý dữ liệu dựa trên SQL thông qua các vấn đề thực tế có độ khó cao, phân tích dữ liệu thông qua phân tích miền kinh doanh và khả năng triển khai các mô hình học máy được tối ưu hóa, bạn sẽ trở thành chuyên gia học máy dựa trên số lượng lớn data. Nếu bạn muốn được công nhận, hãy tham gia bài giảng này.

(4.9) 수강평 29개

강의소개.상단개요.수강생.short

난이도 중급이상

수강기한 무제한

Apache Spark
Apache Spark
Machine Learning(ML)
Machine Learning(ML)
Big Data
Big Data
Data Engineering
Data Engineering
Apache Spark
Apache Spark
Machine Learning(ML)
Machine Learning(ML)
Big Data
Big Data
Data Engineering
Data Engineering

먼저 경험한 수강생들의 후기

먼저 경험한 수강생들의 후기

4.9

5.0

freedom07

93% 수강 후 작성

Lần đầu tiên tôi biết đến Giáo sư Cheolmin Kwon thông qua hướng dẫn đầy đủ về học máy Python. Qua bài giảng đó, tôi, một người không chuyên ngành, đã không thể từ bỏ lĩnh vực mà tôi đã định từ bỏ. Hiện tại, khi làm việc trong lĩnh vực này, tôi đang tham gia các bài giảng về cơ sở hạ tầng và học tập đều đặn. Tôi muốn nói lời cảm ơn đến giáo viên của mình nên trước tiên tôi đã nói lời cảm ơn đến giáo viên của mình trong phần hỏi đáp, giáo viên đã động viên tôi và nói với tôi rằng tôi sẽ có thể đạt được những gì tôi đã học tập chăm chỉ nếu tôi tiếp tục. làm như vậy. Tôi dự định sẽ tiếp tục nghe các bài giảng của bạn trong tương lai. ^^ㅎㅎ Anh ấy dạy rất hay. Cô Cheolmin Kwon, tôi muốn nhân cơ hội này để gửi lời cảm ơn sâu sắc nhất đến cô.

5.0

egs41

10% 수강 후 작성

Thật tốt khi tập trung vào cách diễn đạt và giọng nói của người hướng dẫn, đồng thời nội dung cũng chắc chắn. Hãy tiếp tục làm những bài giảng hay. Cảm ơn

5.0

밑바닥개발자

54% 수강 후 작성

Tôi là một sinh viên đã tham dự loạt bài giảng của Cheolmin Kwon! Cảm ơn bạn vẫn cung cấp những bài giảng chất lượng! Tôi đã xem một số bài giảng Spark về Scala và Java, nhưng tôi nghĩ nó thậm chí còn hay hơn vì đây là bài giảng đầu tiên dạy Spark bằng Python! Dù mình chưa phải là người bướng bỉnh nhưng tốt nhất bạn vẫn nên cố gắng dạy những ngữ pháp đơn giản một cách dễ dàng nhất có thể! Bạn cũng nên cung cấp nhiều tài liệu thực hành khác nhau để khuyến khích khả năng thành thạo lặp đi lặp lại! Tôi đang mong chờ những bài giảng khác trong tương lai!

강의상세_배울수있는것_타이틀

  • Triển khai mô hình học máy trong Spark

  • Hiểu biết chi tiết về DataFrame, nền tảng xử lý dữ liệu của Spark

  • Hiểu các yếu tố kỹ thuật khác nhau tạo nên Khung học máy Spark

  • Tìm hiểu về quy trình học máy của Spark

  • Khả năng sử dụng SQL để phân tích dữ liệu

  • Kỹ thuật Kỹ thuật tính năng dựa trên SQL

  • Triển khai mô hình với XGBoost và LightGBM trong Spark

  • Phương pháp điều chỉnh siêu tham số mô hình dựa trên tối ưu hóa Bayesian

  • Đồng thời cải thiện kỹ năng phân tích dữ liệu và triển khai mô hình ML của bạn thông qua các bài toán thực tế đầy thách thức

  • Phương pháp phân tích dữ liệu dựa trên miền phân tích

  • Các kỹ thuật trực quan hóa dữ liệu khác nhau

[Thông báo] Databricks Community Edition được cung cấp miễn phí trên nền tảng đám mây làm môi trường thực hành cho khóa học này không còn cho phép đăng ký mới. Do đó, xin thông báo rằng môi trường thực hành đã được thay đổi sang môi trường Spark và Jupyter cục bộ kể từ ngày 5 tháng 12 năm 2025.

Do việc thay đổi sang môi trường local chỉ ảnh hưởng đến một phần mã thực hành, nên phần lớn các video bài giảng từ Mục 1 đến Mục 10 vẫn sử dụng nguyên bản các video đã quay trước đó trên Databricks Community, và chỉ có những phần thay đổi chính được cấu trúc lại thành video bài giảng thực hành mới trên Spark local. Ngoài ra, từ Mục 11 trở đi tất cả đều là video thực hành trên Spark local và khóa học sẽ được cấu trúc mới hoàn toàn vào ngày 15 tháng 1 năm 2026, vui lòng tham khảo khi lựa chọn khóa học.

Phân tích dữ liệu + Kỹ thuật đặc trưng + Triển khai ML,
Nắm vững cả ba kỹ năng cùng một lúc.

Cuộc gặp gỡ giữa Apache Spark và
Machine Learning.

Giải pháp xử lý phân tán quy mô lớn mã nguồn mở mạnh nhất Apache Spark đã kết hợp với Machine Learning.

Nhiều tập đoàn lớn và tổ chức tài chính trong nước đang sử dụng Apache Spark để phân tích dữ liệu lớn và xây dựng các mô hình machine learning. Vì Spark dựa trên framework xử lý dữ liệu phân tán, nên có thể mở rộng quy mô từ vài máy chủ đến hàng chục máy chủ để xử lý dữ liệu lớn và tạo các mô hình ML. Do đó, có thể vượt qua giới hạn của scikit-learn chỉ có thể triển khai mô hình machine learning trên một máy chủ duy nhất.


Chúng tôi sẽ giúp bạn trở thành
chuyên gia Machine Learning
có khả năng xử lý/phân tích dữ liệu xuất sắc.

Khóa học 'Hướng dẫn hoàn chỉnh về Machine Learning với Spark - Phần 1' sẽ giúp bạn không chỉ nắm vững cách triển khai các mô hình machine learning trên Spark mà còn phát triển thành chuyên gia machine learning có khả năng xử lý và phân tích dữ liệu xuất sắc.

Để trở thành một chuyên gia machine learning thực thụ, không chỉ cần khả năng triển khai ML mà khả năng xử lý và kết hợp dữ liệu nghiệp vụ để tạo ra mô hình ML cũng vô cùng quan trọng. Vì vậy, bạn sẽ được thực hành và làm quen với cách xử lý dữ liệu bằng SQL - công cụ được sử dụng nhiều nhất trong xử lý dữ liệu lớn tại thực tế, cũng như kỹ thuật phân tích dữ liệu dựa trên phân tích domain nghiệp vụ.

Được cấu trúc để bạn có thể phát triển năng lực xử lý/phân tích dữ liệu và triển khai ML thông qua giải thích lý thuyết chi tiết và thực hành.


Chúng tôi giải quyết
những vấn đề bạn đang gặp phải.

Việc triển khai mô hình machine learning trên nền tảng Spark không hề dễ dàng. Đó là do bạn sẽ phải đối mặt với nhiều vấn đề mà các data scientist hay chuyên gia machine learning truyền thống chưa từng gặp phải, như API và framework machine learning độc đáo dựa trên đặc thù kiến trúc của Spark, cũng như xử lý dữ liệu dựa trên SQL.

Khóa học này, Hướng dẫn hoàn hảo về Machine Learning với Spark, sẽ giúp bạn phát triển khả năng giải quyết các vấn đề mà bạn đang gặp phải.

Phần đầu của khóa học 'Hướng dẫn hoàn chỉnh về Machine Learning với Spark - Phần 1'

Phần đầu của khóa học bao gồm giải thích lý thuyết chi tiết và thực hành phong phú về các yếu tố đa dạng cấu thành nên Spark Machine Learning Framework như DataFrame, SQL, Estimator, Transformer, Pipeline, Evaluator, v.v. Thông qua đó, bạn sẽ có thể triển khai mô hình ML trong Spark một cách dễ dàng và nhanh chóng.

Ngoài ra, tôi sẽ giải thích chi tiết về cách sử dụng XGBoost và LightGBM trong Spark, cũng như cách điều chỉnh siêu tham số bằng HyperOpt dựa trên tối ưu hóa Bayesian.

Phần cuối của khóa học 'Hướng dẫn hoàn chỉnh về Machine Learning với Spark - Part 1'

Hiện tại phần cuối khóa học được cấu thành bằng thực hành cuộc thi Instacart Market Basket Analysis trên Kaggle, nhưng do cuộc thi Instacart Market Basket Analysis đã biến mất khỏi Kaggle, nên sẽ được thay đổi thành thực hành cuộc thi Home Credit Default Risk (dự đoán nợ nhà ở) trên Kaggle (dự kiến hoàn thành trước ngày 15 tháng 1 năm 2026)

Thông qua việc xây dựng mô hình cho cuộc thi Home Credit Default Risk trên Kaggle - một cuộc thi có độ khó cao, chúng tôi sẽ giúp bạn nâng cao đồng thời khả năng xử lý/phân tích dữ liệu thực tế và khả năng xây dựng mô hình machine learning.

Thông qua bộ dữ liệu này, bạn sẽ được học chi tiết về cách xử lý và phân tích dữ liệu nghiệp vụ dựa trên SQL, thực hiện Feature Engineering, cách xác định domain phân tích trong công việc, và cách tạo mô hình dựa trên các Feature đã được xác định như vậy.

💻 Vui lòng kiểm tra trước khi đăng ký!

  • Tất cả code thực hành trong khóa học này đều dựa trên Python. Khóa học không đề cập đến Scala, vui lòng tham khảo trước khi chọn khóa học.

Vui lòng kiểm tra
môi trường thực hành.

Khóa học này sử dụng Docker để xây dựng môi trường thực hành dựa trên Spark và Jupyter local. Môi trường thực hành được thiết lập bằng cách cài đặt Docker Desktop trên PC local, và khóa học được thiết kế để bạn có thể xây dựng môi trường thực hành mà không gặp vấn đề gì ngay cả khi không biết về Docker.

Mã thực hành và tài liệu giải thích của khóa học có thể tải xuống tại 'Tải xuống mã thực hành và tài liệu giải thích'.


Đây là khóa học
yêu cầu kiến thức nền tảng.

Khóa học này được xây dựng với giả định rằng học viên đã có kiến thức về Chương 5 (Hồi quy) của Python Machine Learning Perfect Guide hoặc kiến thức tương đương, và cũng đã nắm được những phần rất cơ bản về SQL, vì vậy vui lòng tham khảo các thông tin trên khi lựa chọn khóa học.

Spark là một công cụ tốt nếu bạn biết những phần cơ bản, nhưng ngay cả khi không biết, bạn cũng sẽ không gặp vấn đề gì khi theo dõi khóa học.

Vui lòng xem trước các bài giảng!

Hướng dẫn hoàn hảo về Machine Learning với Python

Đủ rồi với những khóa học machine learning thiên về lý thuyết,
Từ các khái niệm cốt lõi của machine learning đến năng lực thực chiến một cách dễ hiểu và chính xác.

Bạn muốn xem phỏng vấn người chia sẻ kiến thức? (Nhấn vào đây)

강의소개.콘텐츠.추천문구

학습 대상은 누구일까요?

  • Bất kỳ ai muốn triển khai machine learning bằng Spark

  • Những người muốn triển khai học máy dựa trên lượng lớn dữ liệu

  • Bất kỳ ai muốn cải thiện kỹ thuật xử lý dữ liệu cho machine learning bằng SQL

  • Bất kỳ ai muốn tìm hiểu toàn bộ quá trình xử lý dữ liệu thành dạng mong muốn trong thực tế và tạo mô hình ML dựa trên đó

  • Bất kỳ ai muốn cải thiện khả năng phân tích dữ liệu, kỹ năng kỹ thuật tính năng và triển khai ML

선수 지식, 필요할까요?

  • Hiểu tới Chương 5 (Hồi quy) của Hướng dẫn đầy đủ về học máy Python hoặc kiến ​​thức tương đương của người chơi

  • Hiểu cơ bản về SQL

강의소개.지공자소개

27,463

수강생

1,454

수강평

4,052

답변

4.9

강의 평점

14

강의_other

(Cựu) Tư vấn viên tại Encore Consulting

(Cựu nhân viên) Oracle Korea

Tư vấn viên AI tự do

Tác giả cuốn sách "Cẩm nang học máy Python toàn tập"

더보기

커리큘럼

전체

122개 ∙ (강의상세_런타임_시간 강의상세_런타임_분)

해당 강의에서 제공: [object Object]
강의 게시일: 
마지막 업데이트일: 

수강평

전체

29개

4.9

29개의 수강평

  • egs41님의 프로필 이미지
    egs41

    수강평 54

    평균 평점 5.0

    5

    10% 수강 후 작성

    Thật tốt khi tập trung vào cách diễn đạt và giọng nói của người hướng dẫn, đồng thời nội dung cũng chắc chắn. Hãy tiếp tục làm những bài giảng hay. Cảm ơn

    • indizz4933님의 프로필 이미지
      indizz4933

      수강평 1

      평균 평점 5.0

      5

      100% 수강 후 작성

      Cảm ơn bạn đã cho tôi biết từng bước.

      • freedom07님의 프로필 이미지
        freedom07

        수강평 7

        평균 평점 5.0

        5

        93% 수강 후 작성

        Lần đầu tiên tôi biết đến Giáo sư Cheolmin Kwon thông qua hướng dẫn đầy đủ về học máy Python. Qua bài giảng đó, tôi, một người không chuyên ngành, đã không thể từ bỏ lĩnh vực mà tôi đã định từ bỏ. Hiện tại, khi làm việc trong lĩnh vực này, tôi đang tham gia các bài giảng về cơ sở hạ tầng và học tập đều đặn. Tôi muốn nói lời cảm ơn đến giáo viên của mình nên trước tiên tôi đã nói lời cảm ơn đến giáo viên của mình trong phần hỏi đáp, giáo viên đã động viên tôi và nói với tôi rằng tôi sẽ có thể đạt được những gì tôi đã học tập chăm chỉ nếu tôi tiếp tục. làm như vậy. Tôi dự định sẽ tiếp tục nghe các bài giảng của bạn trong tương lai. ^^ㅎㅎ Anh ấy dạy rất hay. Cô Cheolmin Kwon, tôi muốn nhân cơ hội này để gửi lời cảm ơn sâu sắc nhất đến cô.

        • dooleyz3525
          지식공유자

          Tôi càng ấn tượng hơn khi bạn để lại một bài phê bình bài giảng ấm áp như vậy. Tôi nghĩ mình nên biết ơn vì đây là bài viết bù đắp cho công sức soạn bài giảng chỉ trong chốc lát. Nếu bạn tiếp tục làm việc chăm chỉ như thế này trong tương lai, bạn chắc chắn sẽ đạt được mọi thứ mình mong muốn. Cảm ơn

      • iamcodingcat님의 프로필 이미지
        iamcodingcat

        수강평 13

        평균 평점 5.0

        5

        54% 수강 후 작성

        Tôi là một sinh viên đã tham dự loạt bài giảng của Cheolmin Kwon! Cảm ơn bạn vẫn cung cấp những bài giảng chất lượng! Tôi đã xem một số bài giảng Spark về Scala và Java, nhưng tôi nghĩ nó thậm chí còn hay hơn vì đây là bài giảng đầu tiên dạy Spark bằng Python! Dù mình chưa phải là người bướng bỉnh nhưng tốt nhất bạn vẫn nên cố gắng dạy những ngữ pháp đơn giản một cách dễ dàng nhất có thể! Bạn cũng nên cung cấp nhiều tài liệu thực hành khác nhau để khuyến khích khả năng thành thạo lặp đi lặp lại! Tôi đang mong chờ những bài giảng khác trong tương lai!

        • gomjong님의 프로필 이미지
          gomjong

          수강평 8

          평균 평점 4.9

          5

          100% 수강 후 작성

          Nhờ bạn, tôi đã biết về spark và có được sự tự tin khi tham gia Kaggle Challenge. Cảm ơn bạn!

          dooleyz3525님의 다른 강의

          지식공유자님의 다른 강의를 만나보세요!

          비슷한 강의

          같은 분야의 다른 강의를 만나보세요!

          강의상세.할인문구

          1.441.776 ₫

          30%

          2.059.681 ₫