강의

멘토링

커뮤니티

Data Science

/

Data Engineering

Học thực hành Spark theo cách thực tế Part1

Thông qua khóa học này, bạn sẽ có thể thực hiện ngay các dự án Apache Spark của doanh nghiệp.

22 học viên đang tham gia khóa học này

  • nexthumans
실습 중심
명령어
데이터엔지니어
데이터처리
Apache Spark
Big Data
Machine Learning(ML)
data-transformation

Dịch cái này sang tiếng Việt

  • Cách sử dụng các lệnh cốt lõi dựa trên Spark

  • Dựa trên khoa học dữ liệu Spark

Thực hành Spark theo hướng dẫn Part 1

Giới thiệu khóa học

"Thực hành Spark thực tế Phần 1" là khóa học thực hành được thiết kế dành cho tất cả đối tượng từ người học mới tiếp cận khoa học dữ liệu đến những người làm việc thực tế đang chuẩn bị cho các dự án thực tế sử dụng Spark. Khóa học này được cấu trúc để có thể học một cách có hệ thống từ các khái niệm cơ bản của Spark đến cách ứng dụng trong thực tế, đặc biệt tập trung vào các lệnh thiết yếu và phương pháp xử lý dữ liệu cần thiết cho việc thực hiện dự án Spark.

@Apache Spark, @Dữ liệu lớn, @Học máy, @Kỹ thuật dữ liệu, @Chuyển đổi dữ liệu

Mục tiêu bài giảng

  • Nguyên lý cơ bản và cấu hình môi trường của Spark: Học được nguyên lý hoạt động của Spark và phương pháp cấu hình môi trường để có thể sử dụng hiệu quả trong môi trường local và Docker.

  • Xử lý dữ liệu phân tán và tối ưu hóa: Thực hành các khái niệm xử lý phân tán của Spark và phân vùng dữ liệu, shuffle, cấu hình tài nguyên cluster, v.v., để xây dựng nền tảng cho việc xử lý dữ liệu quy mô lớn.

  • Nắm vững kỹ thuật xử lý dữ liệu tập trung vào thực tế: Thông qua các lệnh Spark đa dạng để tải, chuyển đổi, lọc, kết hợp dữ liệu và học các kỹ thuật xử lý dữ liệu nâng cao.

  • Phát triển khả năng phân tích và trực quan hóa dữ liệu: Sử dụng DataFrame của Spark và các lệnh SQL để phân tích dữ liệu và trực quan hóa kết quả.


Cấu trúc chương trình học

  1. Định hướng

    • Giới thiệu khái niệm Spark và khả năng ứng dụng thực tế, đồng thời đưa ra hướng học tập.

  2. Cấu hình môi trường Spark

    • Học cách cài đặt và cấu hình Spark sử dụng môi trường local và Docker để thiết lập môi trường thực hành.

  3. Khái niệm xử lý phân tán

    • Spark học cách xử lý dữ liệu quy mô lớn và các nguyên lý cơ bản của xử lý phân tán.

  4. Hiểu về hoạt động của Spark

    • Hiểu về nguyên lý hoạt động cốt lõi của Lazy Operation, phân vùng, shuffle thông qua Jupyter Notebook và Spark UI một cách trực quan.

  5. Các lệnh Spark thiết yếu trong thực tế

    • Học các lệnh thường được sử dụng trong thực tế như tải dữ liệu, lọc ngày tháng, join, aggregation, sử dụng UDF, lưu trữ dữ liệu, v.v.

    • Cũng bao gồm cách sử dụng hiệu quả các lệnh SQL.

  6. Xử lý dữ liệu nâng cao

    • Học các kỹ thuật nâng cao để xử lý các vấn đề thường gặp trong thực tế như xử lý dữ liệu chuỗi, xử lý giá trị null, làm việc với dữ liệu JSON, tối ưu hóa phân vùng.


Khóa học này dành cho ai?

  • Học từ cơ bản đến ứng dụng thực tế của Spark dành cho người học mới bắt đầu

  • Phân tích dữ liệu sử dụng Spark và muốn học các kỹ thuật kỹ sư dữ liệu kỹ sư dữ liệu

  • Các chuyên gia thực tế muốn thực hiện dự án Spark của doanh nghiệp hoặc xây dựng pipeline dữ liệu có thể mở rộng


Hiệu quả mong đợi sau khi học

  • Có thể trang bị khả năng xử lý và phân tích dữ liệu bằng Spark, đồng thời đảm bảo năng lực thực hiện các dự án Spark trong doanh nghiệp.

  • Học hỏi bí quyết xử lý hiệu quả dữ liệu quy mô lớn thông qua việc tải, chuyển đổi và lưu trữ dữ liệu trong thực tế.

  • Bạn có thể xây dựng nền tảng vững chắc cho dự án Spark trong môi trường cloud sẽ được đề cập trong Part 2.


Nếu bạn mới bắt đầu với Spark hoặc muốn học các kỹ năng thực tế trong xử lý dữ liệu, thì "Thực hành Spark Part 1 theo từng bước" sẽ là điểm khởi đầu hoàn hảo. Hãy cùng bước vào thế giới khoa học dữ liệu! 🎓✨

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Người mới sử dụng Spark

  • Spark doanh nghiệp muốn thực hiện dự án

Cần biết trước khi bắt đầu?

  • Python cơ bản (cực kỳ cơ bản)

Xin chào
Đây là

127

Học viên

11

Đánh giá

24

Trả lời

4.9

Xếp hạng

3

Các khóa học

현재 대기업 중심으로 아래와 같은 프로젝트의 개발책임 및 컨설팅을 맡고 있습니다. 현역^^입니다.

더불어, 고려대 대학원에서 인공지능 관련 겸임교수로도 활동하고 있습니다.

저의 목표는 실전에 바로 써먹을 수 있는 현장감 있는 프로그래밍 기술입니다. 앞으로 많은 여러분과 함께 재미난 수업 만들어 나가고 싶습니다.

  • 엔터프라이즈 인공지능 구조 및 서비스 설계

  • 머신러닝 서비스 구현

  • 벡엔드 서비스 개발

  • 클라우드(Azure) Databricks, ETL, Fabric 등 각종 클라우드 환경에서의 데이터베이스 구축 및 서비스 개발

Chương trình giảng dạy

Tất cả

48 bài giảng ∙ (10giờ 18phút)

Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Chưa có đủ đánh giá.
Hãy trở thành tác giả của một đánh giá giúp mọi người!

2.088.232 ₫

Khóa học khác của nexthumans

Hãy khám phá các khóa học khác của giảng viên!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!