강의

멘토링

커뮤니티

Data Science

/

Data Engineering

Xử lý Big Data (Spark) theo chia sẻ của lãnh đạo Thung lũng Silicon

Xử lý dữ liệu lớn khác với xử lý dữ liệu bằng Pandas như thế nào? Chúng ta cùng tìm hiểu về Spark, một framework thiết yếu để xử lý dữ liệu lớn nhé?

(4.9) 9 đánh giá

98 học viên

Độ khó Cơ bản

Thời gian Không giới hạn

  • keeyonghan
Apache Spark
Apache Spark
pyspark
pyspark
Pandas
Pandas
Big Data
Big Data
SQL
SQL
Apache Spark
Apache Spark
pyspark
pyspark
Pandas
Pandas
Big Data
Big Data
SQL
SQL

Đánh giá từ những học viên đầu tiên

Đánh giá từ những học viên đầu tiên

4.9

5.0

hanseungggyu

30% đã tham gia

Tôi đã học khóa này vì cần Spark cho công việc. Không chỉ nội dung bài giảng mà khả năng giảng dạy của người chia sẻ kiến thức cũng rất tuyệt vời 😊😊 Tôi sẽ học tất cả các khóa học khác nữa. Cảm ơn vì đã đăng tải khóa học hay như vậy. Hãy đăng thêm nhiều khóa nữa nhé!

5.0

gs

30% đã tham gia

Thật tuyệt vời khi có thể học từ những kiến thức cơ bản nhất! Tôi muốn đăng ký tất cả các khóa học của thầy một cách từng bước một.

5.0

everythx

32% đã tham gia

Có lẽ do bạn kết hợp kinh nghiệm thực tế chuyên sâu với giảng dạy đại học nên rất dễ hiểu.

Bạn sẽ nhận được điều này sau khi học.

  • Spark

  • Xử lý dữ liệu lớn

  • Databricks

  • Spark SQL

  • Kỹ thuật dữ liệu

Kỹ sư Thung lũng Silicon giải thích
Thực hành thiết kế đường ống dữ liệu

Spark, tiêu chuẩn cho xử lý dữ liệu quy mô lớn

Pandas hữu ích khi xử lý lượng dữ liệu nhỏ, nhưng nó bộc lộ những hạn chế khi lượng dữ liệu tăng lên. Ngược lại, Spark là một nền tảng xử lý dữ liệu lớn đã được chứng minh và được nhiều công ty toàn cầu lựa chọn .

hỗ trợ nhiều tác vụ khác nhau, từ tốc độ xử lý nhanh và khả năng mở rộng linh hoạt đến phân tích dữ liệu thời gian thực và xây dựng quy trình học máy, và được định vị là một công cụ quan trọng không chỉ trong kỹ thuật dữ liệu mà còn trong lĩnh vực AI.

Spark không còn chỉ là một lựa chọn nữa; đây là công nghệ cốt lõi phải được học trong môi trường dữ liệu quy mô lớn.
Khóa học này được thiết kế để giúp những người mới làm quen với Spark dần dần xây dựng khả năng thiết kế phân tích và tối ưu hóa hiệu suất cần thiết cho công việc thực tế.

Tại sao bạn nên tham gia khóa học này

Một bài giảng cung cấp điểm khởi đầu thích hợp để học Spark

Khi bạn hiểu được bối cảnh của công nghệ, việc học tiếp theo sẽ trở nên nhanh hơn và rõ ràng hơn nhiều. Khóa học này được thiết kế để giúp bạn dần dần có được kỹ năng phân tích dữ liệu lớn bằng cách tìm hiểu về sự phát triển của các hệ thống xử lý dữ liệu và quá trình chuyển đổi tự nhiên từ Pandas sang Spark.

Một khóa học bao gồm tối ưu hóa hiệu suất Spark và triển khai logic thực tế .

Khóa học này sẽ giúp bạn triển khai nhiều tình huống khác nhau, bao gồm phân tích hành vi người dùng, phân tích luồng kênh và tổng hợp doanh số.
Tìm hiểu các chiến lược cốt lõi để thiết kế và tận dụng Spark một cách nhanh chóng và linh hoạt. Ngoài ra, bạn có thể phát triển khả năng tối ưu hóa hiệu suất và triển khai logic phức tạp cần thiết cho công việc thực tế bằng cách dần dần tìm hiểu các chức năng nâng cao như phương pháp Phân vùng, Xáo trộn và Tham gia cũng như Parquet, UDF và UDAF.

Kinh nghiệm với Spark trong môi trường sản xuất , ngoài phạm vi địa phương

Khóa học này sẽ hướng dẫn bạn cách thiết lập và chạy cụm Spark bằng AWS EMR thông qua thực hành thực tế.
Từ các tính năng mới nhất của Spark 4.0 đến các luồng hoạt động trong môi trường đám mây, khóa học được thiết kế để giúp bạn có được khả năng sử dụng Spark ở cấp độ sản xuất ngoài phạm vi đào tạo tại địa phương.

Đánh giá: 4.9! Sinh viên khoa học dữ liệu của trường đại học San Jose State đánh giá cao

Khóa học này nằm trong chương trình Thạc sĩ Khoa học Dữ liệu tại Đại học San Jose State ở Hoa Kỳ và đã nhận được đánh giá cao 4,9 trong môi trường giáo dục thực tế. Đây là bài giảng thực tế được công nhận ở nước ngoài có thể giúp bạn chuẩn bị cho quá trình giới thiệu và chuyển đổi thực tế về Spark cùng lúc.

Tìm hiểu về những điều này

1⃣ Hiểu được đặc điểm và thách thức của xử lý dữ liệu lớn thông qua lịch sử phát triển xử lý dữ liệu lớn
2⃣ Tìm hiểu thêm về xử lý dữ liệu thông qua so sánh giữa Pandas và Spark
3⃣ Hiểu cấu trúc chương trình Spark và học lập trình Spark SQL
4⃣ Học lập trình Spark thực tế với nhiều ví dụ khác nhau trên Databricks
5⃣ Sử dụng Spark trên AWS EMR và Giới thiệu về Spark 4.0

Tôi giới thiệu điều này cho những người này

Tôi đang làm công việc phân tích và xử lý dữ liệu lớn.
Kỹ sư dữ liệu/nhà phân tích/nhà khoa học phải xử lý khối lượng lớn dữ liệu do tính chất công việc của họ

Tôi muốn vượt ra ngoài quy mô của Pandas
Người dùng Pandas tò mò về những thách thức của việc xử lý dữ liệu lớn.

Tôi cần hiểu về xử lý dữ liệu lớn.
Các nhà phát triển cần hiểu về xử lý dữ liệu lớn, mặc dù đó không phải là công việc chính của họ

Sau giờ học

  • Hiểu cách xử lý dữ liệu lớn đã phát triển như thế nào và những thách thức mà nó phải đối mặt

  • Tìm hiểu về Spark, tiêu chuẩn dữ liệu lớn, thành phần và cấu trúc chương trình dựa trên Python.

  • Dựa trên các ví dụ, bạn sẽ hiểu được sự khác biệt với Pandas, lý do tại sao SQL hiệu quả trong việc xử lý dữ liệu có cấu trúc và tìm hiểu cách sử dụng Spark SQL.

Những hiểu biết sâu sắc từ các chuyên gia dữ liệu lớn đã được chứng minh tại Thung lũng Silicon

Xin chào. Tên tôi là Ki-Yong Han, và tôi là chuyên gia dữ liệu tại Thung lũng Silicon với 30 năm kinh nghiệm. Sau khi bắt đầu sự nghiệp tại Samsung Electronics, tôi đến Thung lũng Silicon ở tuổi 31 và dành 11 năm đầu tiên để phát triển công cụ tìm kiếm trên web tại Yahoo và các công ty khác, nơi tôi lần đầu tiên tiếp xúc với xử lý dữ liệu lớn. Kể từ đó, tôi đã xây dựng các nhóm dữ liệu tại các tổ chức như Udemy (được niêm yết trên NASDAQ vào năm 2021) và Polyvore (được Yahoo mua lại vào năm 2015) và đã cung cấp dịch vụ tư vấn dữ liệu cho nhiều công ty ở Thung lũng Silicon và Hàn Quốc. Dựa trên điều này, cũng như kinh nghiệm giảng dạy thạc sĩ tại Đại học San Jose State, nơi có tỷ lệ việc làm cao nhất tại Thung lũng Silicon, tôi sẽ chia sẻ những kỹ năng cần thiết cho kỹ sư dữ liệu.

Những điều cần lưu ý trước khi tham gia lớp học

Môi trường thực hành

  • Chúng tôi sử dụng Spark 3.5 với nền tảng Python (PySpark). Cuối cùng, chúng tôi sẽ giới thiệu tóm tắt về Spark 4.x, hiện đang trong giai đoạn phát triển bản xem trước.

  • Môi trường thực hành chủ yếu là

    Tôi sử dụng Databricks Community Edition, nhưng tôi cũng sử dụng Google Colab, Databricks Free Trial và AWS EMR.


Tài liệu học tập

Kiến thức và ghi chú của người chơi

  • Cú pháp Python cơ bản (đặc biệt là Pandas)


  • Kiến thức SQL cơ bản (Người mới bắt đầu)


Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Về cơ bản là những người quan tâm đến xử lý dữ liệu lớn

  • Người có kinh nghiệm với Pandas và muốn mở rộng nó thành công nghệ xử lý dữ liệu lớn

  • Người cần xử lý dữ liệu lớn trong công việc

Cần biết trước khi bắt đầu?

  • Kinh nghiệm sử dụng Pandas

  • Python cơ bản

  • SQL cơ bản

Xin chào
Đây là

1,064

Học viên

69

Đánh giá

41

Trả lời

4.9

Xếp hạng

5

Các khóa học

Sau khi tốt nghiệp Thạc sĩ Khoa học Máy tính, sự nghiệp của tôi bắt đầu tại Samsung Electronics và sau đó chuyển sang Thung lũng Silicon nhờ một người bạn. Trong 29 năm qua, tôi đã làm việc tại 13 công ty ở nhiều giai đoạn khác nhau (khởi nghiệp, tập đoàn lớn và nhiều startup).

  • Yahoo: Giám đốc kỹ thuật (Engineering Director), phát triển công cụ tìm kiếm.

  • Udemy. Xây dựng đội ngũ dữ liệu từ đầu và phát triển lên đến 30 người. Niêm yết trên Nasdaq vào tháng 10 năm 2021

  • Samsung Electronics

  • ...

Tôi từng nghỉ ngơi 11 tháng giữa chừng và vô tình xây dựng thương hiệu cá nhân của riêng mình khi đảm nhận các vai trò như nhà đầu tư thiên thần (Chartmetric, Goodtime.io, Select Star, EO, Business Canvas, ...), cố vấn (Moloco, Blind, Wolgeupjaeng-i Bujadeul, ...), và tư vấn (SK Telecom, Hyundai Card, Emart, v.v.). Tôi tin vào sức mạnh của sự tích cực khi xem thất bại không phải là thất bại mà là bài học, và tin vào sức mạnh của lãi kép từ sự kiên trì.

https://www.linkedin.com/in/keeyonghan/

Kênh YouTube

Bài giảng của Wolgeupjae-bujadeul (Những người làm công ăn lương giàu có)

Chương trình giảng dạy

Tất cả

46 bài giảng ∙ (11giờ 25phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

9 đánh giá

4.9

9 đánh giá

  • abcd123123님의 프로필 이미지
    abcd123123

    Đánh giá 327

    Đánh giá trung bình 5.0

    5

    7% đã tham gia

    • shjeong93962385님의 프로필 이미지
      shjeong93962385

      Đánh giá 2

      Đánh giá trung bình 5.0

      5

      30% đã tham gia

      • paulmoon008308님의 프로필 이미지
        paulmoon008308

        Đánh giá 111

        Đánh giá trung bình 4.9

        5

        17% đã tham gia

        • hanseungggyu님의 프로필 이미지
          hanseungggyu

          Đánh giá 3

          Đánh giá trung bình 5.0

          5

          30% đã tham gia

          Tôi đã học khóa này vì cần Spark cho công việc. Không chỉ nội dung bài giảng mà khả năng giảng dạy của người chia sẻ kiến thức cũng rất tuyệt vời 😊😊 Tôi sẽ học tất cả các khóa học khác nữa. Cảm ơn vì đã đăng tải khóa học hay như vậy. Hãy đăng thêm nhiều khóa nữa nhé!

          • ilgulee0808님의 프로필 이미지
            ilgulee0808

            Đánh giá 3

            Đánh giá trung bình 5.0

            5

            30% đã tham gia

            2.263.032 ₫

            Khóa học khác của keeyonghan

            Hãy khám phá các khóa học khác của giảng viên!

            Khóa học tương tự

            Khám phá các khóa học khác trong cùng lĩnh vực!