inflearn logo
inflearn logo

Học Spark thực tế qua các ví dụ - Phần 1

Thông qua khóa học này, bạn sẽ có thể thực hiện ngay các dự án Apache Spark của doanh nghiệp.

29 học viên đang tham gia khóa học này

Độ khó Cơ bản

Thời gian 12 tháng

Apache Spark
Apache Spark
Big Data
Big Data
Machine Learning(ML)
Machine Learning(ML)
data-transformation
data-transformation
Apache Spark
Apache Spark
Big Data
Big Data
Machine Learning(ML)
Machine Learning(ML)
data-transformation
data-transformation

Bạn sẽ nhận được điều này sau khi học.

  • Cách sử dụng các lệnh cốt lõi dựa trên Spark

  • Khoa học dữ liệu dựa trên Spark

Thực hành Spark theo hướng dẫn Phần 1

Giới thiệu khóa học

"Thực hành Spark thực tế Phần 1" là khóa học lấy thực hành làm trung tâm, được thiết kế cho tất cả mọi người, từ những người mới bắt đầu tiếp cận khoa học dữ liệu cho đến những người đang chuẩn bị cho các dự án thực tế sử dụng Spark. Khóa học này được cấu trúc để bạn có thể học tập một cách hệ thống từ các khái niệm cơ bản của Spark đến cách ứng dụng trong thực tế, đặc biệt tập trung vào các câu lệnh và phương pháp xử lý dữ liệu thiết yếu để thực hiện các dự án Spark.

@Apache Spark, @Big Data, @Machine Learning, @Kỹ thuật dữ liệu, @Biến đổi dữ liệu

Mục tiêu khóa học

  • Nguyên lý cơ bản và thiết lập môi trường của Spark: Bạn có thể nắm vững nguyên lý hoạt động và cách cấu hình môi trường của Spark để sử dụng hiệu quả trong môi trường local và Docker.

  • Xử lý dữ liệu phân tán và tối ưu hóa: Thực hành các khái niệm xử lý phân tán của Spark, phân vùng dữ liệu (partition), shuffle, cấu hình tài nguyên cụm (cluster), v.v., nhằm xây dựng nền tảng vững chắc cho việc xử lý dữ liệu quy mô lớn.

  • Tiếp thu kỹ thuật xử lý dữ liệu tập trung vào thực tiễn: Học các kỹ thuật xử lý dữ liệu nâng cao thông qua việc tải, chuyển đổi, lọc và kết hợp dữ liệu bằng nhiều câu lệnh Spark khác nhau.

  • Nuôi dưỡng khả năng phân tích và trực quan hóa dữ liệu: Sử dụng khung dữ liệu (Dataframe) và các câu lệnh SQL của Spark để phân tích dữ liệu và trực quan hóa kết quả.


Cấu trúc chương trình học

  1. Buổi định hướng

    • Giới thiệu về khái niệm Spark và khả năng ứng dụng trong thực tế, đồng thời đề ra định hướng học tập.

  2. Thiết lập môi trường Spark

    • Tìm hiểu cách cài đặt và thiết lập Spark bằng môi trường local và Docker để xây dựng môi trường thực hành.

  3. Khái niệm xử lý phân tán

    • Học về cách Spark xử lý dữ liệu quy mô lớn và các nguyên lý cơ bản của xử lý phân tán.

  4. Hiểu về cơ chế hoạt động của Spark

    • Hiểu một cách trực quan các nguyên lý hoạt động cốt lõi như Lazy Operation, Partition, Shuffle thông qua Jupyter Notebook và Spark UI.

  5. Các lệnh Spark thiết yếu trong thực tế

    • Làm quen với các câu lệnh thường được sử dụng trong thực tế như tải dữ liệu, lọc ngày tháng, join, aggregation, sử dụng UDF và lưu trữ dữ liệu.

    • Nội dung cũng bao gồm cách sử dụng hiệu quả các câu lệnh SQL.

  6. Xử lý dữ liệu nâng cao

    • Học các kỹ thuật nâng cao để giải quyết các vấn đề thường gặp trong thực tế như xử lý dữ liệu chuỗi, xử lý giá trị null, thao tác với dữ liệu JSON và tối ưu hóa phân vùng (partition).


Khóa học này dành cho ai?

  • Người mới bắt đầu muốn học từ cơ bản đến cách sử dụng thực tế của Spark

  • Kỹ sư dữ liệu muốn thành thạo kỹ năng phân tích và kỹ thuật dữ liệu bằng Spark

  • Chuyên gia thực tế muốn thực hiện các dự án Spark của doanh nghiệp hoặc xây dựng các đường ống dữ liệu (data pipeline) có khả năng mở rộng.


Hiệu quả mong đợi sau khóa học

  • Bạn có thể trang bị khả năng xử lý và phân tích dữ liệu bằng Spark, đồng thời đảm bảo năng lực thực hiện các dự án Spark tại doanh nghiệp.

  • Học hỏi bí quyết tải, biến đổi, lưu trữ dữ liệu trong thực tế và xử lý dữ liệu quy mô lớn một cách hiệu quả.

  • Bạn có thể xây dựng nền tảng vững chắc cho dự án Spark trong môi trường đám mây sẽ được đề cập ở Phần 2.


Nếu bạn mới bắt đầu với Spark hoặc muốn rèn luyện các kỹ năng xử lý dữ liệu thực tế, "Thực hành Spark thực tế Part 1" sẽ là điểm khởi đầu hoàn hảo. Hãy cùng tiến bước vào thế giới khoa học dữ liệu nhé! 🎓✨

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Người mới bắt đầu với Spark

  • Người muốn thực hiện dự án doanh nghiệp về Spark

Cần biết trước khi bắt đầu?

  • Cơ bản về Python (mức độ rất thấp)

Xin chào
Đây là nexthumans

170

Học viên

15

Đánh giá

29

Trả lời

4.9

Xếp hạng

3

Các khóa học

Hiện tại, tôi đang đảm nhận vai trò trưởng dự án phát triển và tư vấn cho các dự án dưới đây tại các tập đoàn lớn. Tôi vẫn đang trực tiếp thực chiến^^.

Bên cạnh đó, tôi cũng đang hoạt động với tư cách là giáo sư kiêm nhiệm về lĩnh vực trí tuệ nhân tạo tại cao học trường Đại học Korea.

Mục tiêu của tôi là truyền tải những kỹ thuật lập trình mang tính thực tiễn cao, có thể áp dụng ngay vào công việc thực tế. Tôi rất mong muốn được cùng các bạn tạo nên những giờ học thú vị trong tương lai.

  • Thiết kế dịch vụ và cấu trúc trí tuệ nhân tạo doanh nghiệp

  • Triển khai dịch vụ Machine Learning

  • Phát triển dịch vụ Backend

  • Xây dựng cơ sở dữ liệu và phát triển dịch vụ trong các môi trường đám mây khác nhau như Cloud (Azure) Databricks, ETL, Fabric, v.v.

Thêm

Chương trình giảng dạy

Tất cả

48 bài giảng ∙ (10giờ 33phút)

Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Chưa có đủ đánh giá.
Hãy trở thành tác giả của một đánh giá giúp mọi người!

Khóa học khác của nexthumans

Hãy khám phá các khóa học khác của giảng viên!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!

2.070.150 ₫