Inflearn brand logo image
Inflearn brand logo image
Inflearn brand logo image
Data Science

/

Data Engineering

Xử lý Big Data (Spark) theo chia sẻ của lãnh đạo Thung lũng Silicon

Xử lý dữ liệu lớn khác với xử lý dữ liệu bằng Pandas như thế nào? Chúng ta cùng tìm hiểu về Spark, một framework thiết yếu để xử lý dữ liệu lớn nhé?

(4.8) 4 đánh giá

50 học viên

  • keeyonghan9539
실리콘밸리
시리즈
데이터처리
Apache Spark
pyspark
Pandas
Big Data
SQL

Dịch cái này sang tiếng Việt

  • Spark

  • Xử lý dữ liệu lớn

  • Databricks

  • Spark SQL

  • Kỹ thuật dữ liệu

Kỹ sư Thung lũng Silicon giải thích
Thực hành thiết kế đường ống dữ liệu

Spark, tiêu chuẩn cho xử lý dữ liệu quy mô lớn

Pandas hữu ích khi xử lý lượng dữ liệu nhỏ, nhưng nó bộc lộ những hạn chế khi lượng dữ liệu tăng lên. Ngược lại, Spark là một nền tảng xử lý dữ liệu lớn đã được chứng minh và được nhiều công ty toàn cầu lựa chọn .

hỗ trợ nhiều tác vụ khác nhau, từ tốc độ xử lý nhanh và khả năng mở rộng linh hoạt đến phân tích dữ liệu thời gian thực và xây dựng quy trình học máy, và được định vị là một công cụ quan trọng không chỉ trong kỹ thuật dữ liệu mà còn trong lĩnh vực AI.

Spark không còn chỉ là một lựa chọn nữa; đây là công nghệ cốt lõi phải được học trong môi trường dữ liệu quy mô lớn.
Khóa học này được thiết kế để giúp những người mới làm quen với Spark dần dần xây dựng khả năng thiết kế phân tích và tối ưu hóa hiệu suất cần thiết cho công việc thực tế.

Tại sao bạn nên tham gia khóa học này

Một bài giảng cung cấp điểm khởi đầu thích hợp để học Spark

Khi bạn hiểu được bối cảnh của công nghệ, việc học tiếp theo sẽ trở nên nhanh hơn và rõ ràng hơn nhiều. Khóa học này được thiết kế để giúp bạn dần dần có được kỹ năng phân tích dữ liệu lớn bằng cách tìm hiểu về sự phát triển của các hệ thống xử lý dữ liệu và quá trình chuyển đổi tự nhiên từ Pandas sang Spark.

Một khóa học bao gồm tối ưu hóa hiệu suất Spark và triển khai logic thực tế .

Khóa học này sẽ giúp bạn triển khai nhiều tình huống khác nhau, bao gồm phân tích hành vi người dùng, phân tích luồng kênh và tổng hợp doanh số.
Tìm hiểu các chiến lược cốt lõi để thiết kế và tận dụng Spark một cách nhanh chóng và linh hoạt. Ngoài ra, bạn có thể phát triển khả năng tối ưu hóa hiệu suất và triển khai logic phức tạp cần thiết cho công việc thực tế bằng cách dần dần tìm hiểu các chức năng nâng cao như phương pháp Phân vùng, Xáo trộn và Tham gia cũng như Parquet, UDF và UDAF.

Kinh nghiệm với Spark trong môi trường sản xuất , ngoài phạm vi địa phương

Khóa học này sẽ hướng dẫn bạn cách thiết lập và chạy cụm Spark bằng AWS EMR thông qua thực hành thực tế.
Từ các tính năng mới nhất của Spark 4.0 đến các luồng hoạt động trong môi trường đám mây, khóa học được thiết kế để giúp bạn có được khả năng sử dụng Spark ở cấp độ sản xuất ngoài phạm vi đào tạo tại địa phương.

Đánh giá: 4.9! Sinh viên khoa học dữ liệu của trường đại học San Jose State đánh giá cao

Khóa học này nằm trong chương trình Thạc sĩ Khoa học Dữ liệu tại Đại học San Jose State ở Hoa Kỳ và đã nhận được đánh giá cao 4,9 trong môi trường giáo dục thực tế. Đây là bài giảng thực tế được công nhận ở nước ngoài có thể giúp bạn chuẩn bị cho quá trình giới thiệu và chuyển đổi thực tế về Spark cùng lúc.

Tìm hiểu về những điều này

1⃣ Hiểu được đặc điểm và thách thức của xử lý dữ liệu lớn thông qua lịch sử phát triển xử lý dữ liệu lớn
2⃣ Tìm hiểu thêm về xử lý dữ liệu thông qua so sánh giữa Pandas và Spark
3⃣ Hiểu cấu trúc chương trình Spark và học lập trình Spark SQL
4⃣ Học lập trình Spark thực tế với nhiều ví dụ khác nhau trên Databricks
5⃣ Sử dụng Spark trên AWS EMR và Giới thiệu về Spark 4.0

Tôi giới thiệu điều này cho những người này

Tôi đang làm công việc phân tích và xử lý dữ liệu lớn.
Kỹ sư dữ liệu/nhà phân tích/nhà khoa học phải xử lý khối lượng lớn dữ liệu do tính chất công việc của họ

Tôi muốn vượt ra ngoài quy mô của Pandas
Người dùng Pandas tò mò về những thách thức của việc xử lý dữ liệu lớn.

Tôi cần hiểu về xử lý dữ liệu lớn.
Các nhà phát triển cần hiểu về xử lý dữ liệu lớn, mặc dù đó không phải là công việc chính của họ

Sau giờ học

  • Hiểu cách xử lý dữ liệu lớn đã phát triển như thế nào và những thách thức mà nó phải đối mặt

  • Tìm hiểu về Spark, tiêu chuẩn dữ liệu lớn, thành phần và cấu trúc chương trình dựa trên Python.

  • Dựa trên các ví dụ, bạn sẽ hiểu được sự khác biệt với Pandas, lý do tại sao SQL hiệu quả trong việc xử lý dữ liệu có cấu trúc và tìm hiểu cách sử dụng Spark SQL.

Những hiểu biết sâu sắc từ các chuyên gia dữ liệu lớn đã được chứng minh tại Thung lũng Silicon

Xin chào. Tên tôi là Ki-Yong Han, và tôi là chuyên gia dữ liệu tại Thung lũng Silicon với 30 năm kinh nghiệm. Sau khi bắt đầu sự nghiệp tại Samsung Electronics, tôi đến Thung lũng Silicon ở tuổi 31 và dành 11 năm đầu tiên để phát triển công cụ tìm kiếm trên web tại Yahoo và các công ty khác, nơi tôi lần đầu tiên tiếp xúc với xử lý dữ liệu lớn. Kể từ đó, tôi đã xây dựng các nhóm dữ liệu tại các tổ chức như Udemy (được niêm yết trên NASDAQ vào năm 2021) và Polyvore (được Yahoo mua lại vào năm 2015) và đã cung cấp dịch vụ tư vấn dữ liệu cho nhiều công ty ở Thung lũng Silicon và Hàn Quốc. Dựa trên điều này, cũng như kinh nghiệm giảng dạy thạc sĩ tại Đại học San Jose State, nơi có tỷ lệ việc làm cao nhất tại Thung lũng Silicon, tôi sẽ chia sẻ những kỹ năng cần thiết cho kỹ sư dữ liệu.

Những điều cần lưu ý trước khi tham gia lớp học

Môi trường thực hành

  • Chúng tôi sử dụng Spark 3.5 với nền tảng Python (PySpark). Cuối cùng, chúng tôi sẽ giới thiệu tóm tắt về Spark 4.x, hiện đang trong giai đoạn phát triển bản xem trước.

  • Môi trường thực hành chủ yếu là

    Tôi sử dụng Databricks Community Edition, nhưng tôi cũng sử dụng Google Colab, Databricks Free Trial và AWS EMR.


Tài liệu học tập

Kiến thức và ghi chú của người chơi

  • Cú pháp Python cơ bản (đặc biệt là Pandas)


  • Kiến thức SQL cơ bản (Người mới bắt đầu)


Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Về cơ bản là những người quan tâm đến xử lý dữ liệu lớn

  • Người có kinh nghiệm với Pandas và muốn mở rộng nó thành công nghệ xử lý dữ liệu lớn

  • Người cần xử lý dữ liệu lớn trong công việc

Cần biết trước khi bắt đầu?

  • Kinh nghiệm sử dụng Pandas

  • Python cơ bản

  • SQL cơ bản

Xin chào
Đây là

851

Học viên

49

Đánh giá

30

Trả lời

4.9

Xếp hạng

5

Các khóa học

컴퓨터 공학 석사 후 삼성전자에서 시작된 커리어가 친구덕에 실리콘밸리로 이어져 지난 29년간 13개의 다양한 스테이지의 회사를 다녔습니다 (창업, 대기업들, 다수의 스타트업들).

  • 야후: 엔지니어링 디렉터로 검색엔진 개발.

  • 유데미. 데이터팀을 처음 만들어 30명까지 성장. 2021년 10월에 나스닥 상장

  • 삼성전자

  • ...

중간에 11개월 쉬어보기도 했고 본의 아니게 엔젤투자자(Chartmetric, Goodtime.io, Select Star, EO, 비지니스 캔버스, ...), 어드바이저(몰로코, 블라인드, 월급쟁이부자들, ...), 컨설팅(SK텔레콤, 현대카드, 이마트 등등) 등의 역할을 하면서 나만의 브랜드를 만들었습니다. 실패를 실패가 아닌 교훈으로 보는 긍정의 힘과 꾸준함이라는 복리의 힘을 믿습니다.

https://www.linkedin.com/in/keeyonghan/

유투브 채널

월급쟁이부자들 강의

Chương trình giảng dạy

Tất cả

46 bài giảng ∙ (11giờ 25phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

4 đánh giá

4.8

4 đánh giá

  • gs님의 프로필 이미지
    gs

    Đánh giá 1

    Đánh giá trung bình 5.0

    5

    30% đã tham gia

    • YEONSOO LIM님의 프로필 이미지
      YEONSOO LIM

      Đánh giá 1

      Đánh giá trung bình 4.0

      4

      30% đã tham gia

      • diazepam57님의 프로필 이미지
        diazepam57

        Đánh giá 10

        Đánh giá trung bình 5.0

        5

        60% đã tham gia

        • everythx님의 프로필 이미지
          everythx

          Đánh giá 10

          Đánh giá trung bình 5.0

          5

          32% đã tham gia

          고스펙의 실무와 대학강의를 겸비하셔서인지 이해가 쉽게됩니다

          2.298.364 ₫

          Khóa học khác của keeyonghan9539

          Hãy khám phá các khóa học khác của giảng viên!

          Khóa học tương tự

          Khám phá các khóa học khác trong cùng lĩnh vực!