Inflearn brand logo image
Inflearn brand logo image
Data Science

/

Data Engineering

Học thực hành Spark theo cách thực tế Part1

Thông qua khóa học này, bạn sẽ có thể thực hiện ngay các dự án Apache Spark của doanh nghiệp.

13 học viên đang tham gia khóa học này

Apache Spark
Big Data
Machine Learning(ML)
data-transformation

Dịch cái này sang tiếng Việt

  • Cách sử dụng các lệnh cốt lõi dựa trên Spark

  • Dựa trên khoa học dữ liệu Spark

Spark thực tế Phần 1 tiếp theo

Giới thiệu bài giảng

“Practical Spark Part 1” là bài giảng thiên về thực hành được thiết kế dành cho tất cả mọi người, từ những người mới làm quen với khoa học dữ liệu cho đến những người đang chuẩn bị cho các dự án thực tế sử dụng Spark. Bài giảng này được thiết kế để giúp bạn học một cách có hệ thống từ các khái niệm cơ bản của Spark đến cách sử dụng thực tế và đặc biệt tập trung vào các lệnh và phương pháp xử lý dữ liệu cần thiết để thực hiện dự án Spark.

@Apache Spark, @Big Data, @Machine Learning, @Data Engineering, @Data Transformation

Mục tiêu bài học

  • Các nguyên tắc cơ bản và cài đặt môi trường của Spark : Tìm hiểu các nguyên tắc hoạt động và phương pháp cấu hình môi trường của Spark để sử dụng nó một cách hiệu quả trong môi trường cục bộ và Docker.

  • Tối ưu hóa và xử lý dữ liệu phân tán : Thực hành các khái niệm xử lý phân tán, phân vùng dữ liệu, xáo trộn và cấu hình tài nguyên cụm của Spark, đồng thời đặt nền tảng cho xử lý dữ liệu quy mô lớn.

  • Có được các kỹ năng xử lý dữ liệu thực tế : Tải, chuyển đổi, lọc và kết hợp dữ liệu thông qua các lệnh Spark khác nhau và tìm hiểu các kỹ thuật xử lý dữ liệu nâng cao.

  • Phát triển kỹ năng phân tích và trực quan hóa dữ liệu : Phân tích dữ liệu và trực quan hóa kết quả bằng cách sử dụng khung dữ liệu và lệnh SQL của Spark.


Thành phần chương trình giảng dạy

  1. định hướng

    • Giới thiệu khái niệm về Spark và các khả năng ứng dụng thực tế của nó, đồng thời cung cấp hướng dẫn học tập.

  2. Định cấu hình môi trường Spark

    • Tìm hiểu cách cài đặt và thiết lập Spark bằng môi trường cục bộ và Docker để định cấu hình môi trường phòng thí nghiệm.

  3. Khái niệm xử lý phân tán

    • Tìm hiểu cách Spark xử lý dữ liệu quy mô lớn và các nguyên tắc cơ bản của xử lý phân tán.

  4. Hiểu hành vi của Spark

    • Hiểu rõ các nguyên tắc hoạt động cốt lõi như thao tác lười biếng, phân vùng và xáo trộn thông qua Jupyter Notebook và Spark UI.

  5. Các lệnh Spark cần thiết trong thực tế

    • Tìm hiểu các lệnh thường được sử dụng trong thực tế, chẳng hạn như tải dữ liệu, lọc ngày, nối, tổng hợp, sử dụng UDF và lưu trữ dữ liệu.

    • Nó cũng bao gồm cách sử dụng các lệnh SQL một cách hiệu quả.

  6. Xử lý dữ liệu nâng cao

    • Bạn sẽ học các kỹ thuật nâng cao để giải quyết các vấn đề thường gặp trong thực tế, chẳng hạn như xử lý dữ liệu chuỗi, xử lý giá trị null, xử lý dữ liệu JSON và tối ưu hóa phân vùng.


Khóa học này dành cho ai?

  • Người mới bắt đầu muốn học từ cơ bản về Spark đến phương pháp sử dụng thực tế

  • Kỹ sư dữ liệu muốn học các kỹ năng phân tích dữ liệu và kỹ thuật bằng Spark

  • Các chuyên gia đang làm việc muốn làm việc trong các dự án Spark của công ty hoặc xây dựng đường dẫn dữ liệu có thể mở rộng


Hiệu quả mong đợi sau khi tham gia khóa học

  • Bạn có thể có được khả năng xử lý và phân tích dữ liệu bằng Spark cũng như khả năng thực hiện các dự án Spark trong công ty của mình.

  • Trong đào tạo thực tế, bạn sẽ có được bí quyết tải, chuyển đổi và lưu trữ dữ liệu cũng như xử lý dữ liệu quy mô lớn một cách hiệu quả.

  • Bạn sẽ có được nền tảng vững chắc cho các dự án Spark trong môi trường đám mây, điều này sẽ được đề cập trong Phần 2.


Nếu bạn là người mới làm quen với Spark hoặc muốn học các kỹ năng thực tế trong xử lý dữ liệu thì “Practical Spark Part 1” là điểm khởi đầu hoàn hảo. Hãy cùng nhau tiến vào thế giới khoa học dữ liệu! 🎓

Khuyến nghị cho
những người này!

Khóa học này dành cho ai?

  • Người mới sử dụng Spark

  • Spark doanh nghiệp muốn thực hiện dự án

Cần biết trước khi bắt đầu?

  • Python cơ bản (cực kỳ cơ bản)

Xin chào
Đây là

74

Học viên

6

Đánh giá

10

Trả lời

5.0

Xếp hạng

3

Các khóa học

현재 대기업 중심으로 아래와 같은 프로젝트의 개발책임 및 컨설팅을 맡고 있습니다. 현역^^입니다.

더불어, 고려대 대학원에서 인공지능 관련 겸임교수로도 활동하고 있습니다.

저의 목표는 실전에 바로 써먹을 수 있는 현장감 있는 프로그래밍 기술입니다. 앞으로 많은 여러분과 함께 재미난 수업 만들어 나가고 싶습니다.

  • 엔터프라이즈 인공지능 구조 및 서비스 설계

  • 머신러닝 서비스 구현

  • 벡엔드 서비스 개발

  • 클라우드(Azure) Databricks, ETL, Fabric 등 각종 클라우드 환경에서의 데이터베이스 구축 및 서비스 개발

Chương trình giảng dạy

Tất cả

48 bài giảng ∙ (9giờ 57phút)

Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Chưa có đủ đánh giá.
Hãy trở thành tác giả của một đánh giá giúp mọi người!

Khóa học khác của nexthumans

Hãy khám phá các khóa học khác của giảng viên!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!