inflearn logo

Hướng dẫn hoàn hảo về Airflow - Phần 1

Khóa học này bao gồm lý thuyết chi tiết và thực hành về các cơ chế cốt lõi của Apache Airflow, từ DAG, Operator, Hook, Scheduling, Timezone, tính lũy đẳng (idempotency) cho đến Template. Đây là khóa học làm chủ Airflow tập trung vào thực tiễn, giúp bạn hiểu rõ "tại sao Airflow lại hoạt động như vậy" và có thể tự mình thiết kế cũng như gỡ lỗi (debug) các đường ống dữ liệu (data pipeline).

75 học viên đang tham gia khóa học này

Độ khó Trung cấp trở lên

Thời gian Không giới hạn

Data Engineering
Data Engineering
airflow
airflow
orchestration
orchestration
Data Engineering
Data Engineering
airflow
airflow
orchestration
orchestration

Bạn sẽ nhận được điều này sau khi học.

  • Hiểu cơ chế hoạt động cốt lõi của các thành phần chính trong Airflow

  • Hiểu về vai trò và cấu trúc hoạt động bên trong của Operator, Hook và TaskFlow API

  • Cách sử dụng các loại Operator khác nhau (Bash, Http, SQL, S3)

  • Triển khai đường ống dữ liệu thực tế sử dụng API, SQL và Object Storage

  • Đảm bảo năng lực giải quyết các vấn đề vận hành thực tế như chạy lại (rerun), lỗi múi giờ (timezone), nhầm lẫn giữa catchup và backfill.

  • Khả năng thiết kế pipeline ổn định có cân nhắc đến tính lũy đẳng (idempotency)

  • Hiểu rõ sự khác biệt giữa lập lịch dựa trên khoảng thời gian (Interval) và lập lịch dựa trên thời điểm thực thi.

  • Đạt đến trình độ có thể thiết kế và vận hành Airflow trong thực tế.

Xử lý gọn dữ liệu pipeline! Lớp học Master Airflow

Đây là khóa học Airflow chuyên sâu lấy thực hành làm trung tâm, giúp bạn hiểu rõ sự phức tạp của đường ống dữ liệu và có thể tự mình thực hiện từ khâu thiết kế đến gỡ lỗi.
Khóa học Master Airflow tập trung vào thực tiễn.


Tại sao đường ống dữ liệu do tôi tạo ra ngày càng trở nên phức tạp?
Tại sao việc khắc phục một sự cố lại mất đến nửa ngày?

Bạn đã bao giờ gặp phải tình trạng lịch trình Airflow bị lỗi và nhận được cuộc gọi khẩn cấp vào sáng sớm chưa?

Bạn đã bao giờ đau đầu với việc xử lý tiền dữ liệu phức tạp do dữ liệu bị tích tụ trùng lặp chưa?

Đây là Phần 1 của khóa học và Phần 2 sẽ được phát hành dưới dạng một khóa học riêng biệt vào giữa tháng 6 năm 2026. Trong Phần 2, chúng ta sẽ tìm hiểu về Sensor, Asset, Dynamic Task Mapping, Task Group, Notification, cùng nhiều Operator và Hook bổ sung khác.

Khóa học này sẽ tiến hành lý thuyết và thực hành với phiên bản mới nhất (tính đến thời điểm ra mắt khóa học) là Airflow 3.1.


Từ nguyên lý hoạt động cốt lõi của Airflow
đến cách sử dụng các Operator và Hook đa dạng


Giúp bạn phát triển thành một 'kỹ sư có khả năng tự vận hành' và tự mình thiết kế các đường ống dữ liệu (data pipeline).



Sau khi kết thúc khóa học này, các bạn sẽ

Bạn sẽ tìm thấy câu trả lời rõ ràng cho câu hỏi 'Tại sao?' của Airflow.

  • Chúng tôi giúp bạn hiểu sâu sắc về "tại sao Airflow lại hoạt động như vậy" thông qua các lý thuyết chi tiết và thực hành, từ các cơ chế cốt lõi của Airflow đến DAG, Operator, Hook, Scheduling, Timezone, tính lũy đẳng (Idempotency) và Template. Thông qua đó, bạn có thể phát triển năng lực thực tiễn để tự mình thiết kế và gỡ lỗi (debug) các đường ống dữ liệu (data pipeline).

Bạn sẽ sở hữu khả năng giải quyết vấn đề Airflow xuất sắc, được công nhận trong thực tế

  • Hiểu và giải quyết một cách có hệ thống các vấn đề thường gặp trong quá trình vận hành Airflow như: sự khác biệt giữa ngày thực thi và thời điểm thực thi thực tế, lỗi múi giờ (Timezone), mối quan hệ giữa việc thử lại (retry) và tính lũy đẳng (idempotency), cũng như cơ chế hoạt động của catchup và backfill. Thông qua lý thuyết và thực hành, bạn sẽ nắm vững nguyên lý hoạt động bên trong, từ đó không chỉ dừng lại ở việc xử lý tình huống mà còn có khả năng loại bỏ nguyên nhân gốc rễ và thiết kế ngăn ngừa tái diễn lỗi.

Tự tin trực tiếp thiết kế và xây dựng các đường ống dữ liệu (data pipeline) ổn định.

  • Bạn có thể tự tin sử dụng Airflow thông qua việc trực tiếp xây dựng các đường ống dữ liệu (data pipeline) thực tế kết nối nhiều môi trường khác nhau như SQL, API, Object Storage. Đồng thời, bạn sẽ phát triển năng lực thiết kế và xây dựng pipeline cân nhắc đến tính lũy đẳng (Idempotency) để duy trì sự ổn định của hệ thống ngay cả trong những tình huống không thể dự đoán trước như tải trùng lặp dữ liệu hoặc xử lý thất bại.

Trở thành chuyên gia Airflow.

  • Khóa học được thiết kế với những nội dung thực tiễn mà bạn nhất định phải biết trong môi trường vận hành thực tế. Không chỉ dừng lại ở việc học cách sử dụng Airflow, sau khi hoàn thành khóa học, bạn sẽ trở thành một chuyên gia thực thụ, có thể tự tin giải đáp các câu hỏi liên quan đến Airflow trong nhóm, cũng như thiết kế và vận hành thành công các đường ống dữ liệu (data pipeline) phức tạp.



📚

Thông qua lý thuyết và thực hành
Làm chủ nguyên lý hoạt động của Airflow


Airflow không hề khó - nếu đồng hành cùng bài giảng này,

Nắm vững các khái niệm cơ bản về Airflow và cung cấp lộ trình học tập từng bước phù hợp cho cả người mới bắt đầu và người đã có kinh nghiệm, từ Operator và Hook đến lập lịch và Template.


Cơ bản về Airflow 01 ~ 02

  • Học chi tiết về các thành phần cốt lõi của Airflow như DAG, Task, định nghĩa phụ thuộc giữa các Task và XCom - cơ chế truyền dữ liệu giữa các Task. Ngoài ra, người học sẽ hiểu rõ cơ chế hoạt động của Airflow thông qua việc tìm hiểu về DAG dựa trên TaskFlow API, vai trò của các thành phần chính trong Airflow, tự động thử lại (retries), thực hiện lại Task và DAG Run thông qua tính năng Clear, cũng như Airflow Context.


Sử dụng Bash và HTTP Operator

Thực hành cách sử dụng Bash Operator để thực thi các shell script và thông qua HTTP Operator để kết nối với các API bên ngoài. Xây dựng nền tảng tích hợp với nhiều hệ thống bên ngoài khác nhau.


Liên kết cơ sở dữ liệu bằng cách sử dụng SQL Operator và Hook

Học cách kết nối với cơ sở dữ liệu MySQL và PostgreSQL để thực thi các câu lệnh truy vấn SQL. Nâng cao năng lực xây dựng đường ống xử lý dữ liệu (data pipeline) dựa trên cơ sở dữ liệu.


Liên kết lưu trữ Object sử dụng S3 Operator và Hook (MinIO)

Thực hành cách liên kết với kho lưu trữ đối tượng tương thích S3 bằng MinIO. Đây là nội dung thiết yếu để xây dựng đường ống xử lý và quản lý dữ liệu dựa trên lưu trữ đám mây.


Lập lịch Airflow 01 ~ 02

Chúng tôi đã chuẩn bị rất nhiều lý thuyết và thực hành để bạn có thể hiểu rõ về cách hoạt động của Timezone và Scheduling dựa trên Interval – những khái niệm dễ gây nhầm lẫn nhất trong Airflow. Đồng thời, bạn cũng sẽ nắm vững cách duy trì tính idempotent (tính lũy đẳng) cho các DAG chạy định kỳ. Ngoài ra, tôi cũng sẽ giải thích chi tiết về catchup, backfill và phương pháp Point-In-Time scheduling dựa trên Timetable với biểu thức Cron mới nhất.


Airflow Templating

Học cách cấu trúc quy trình làm việc (workflow) động bằng cách sử dụng Jinja template của Airflow. Thông qua đó, bạn có thể viết Operator và DAG một cách linh hoạt và hiệu quả hơn.


Có thể giải quyết
nỗi lo của những người này!

📌

Kỹ sư dữ liệu Junior trong thực tế

Những người gặp khó khăn trong quá trình vận hành do không hiểu rõ tại sao Airflow DAG lại chạy vào một thời điểm nhất định hoặc tại sao nó lại chạy trùng lặp
Những người cảm thấy khó khăn trong việc xác định nguyên nhân gốc rễ của vấn đề khi debug các DAG đang chạy

📌

Nhà phát triển Backend có ít kinh nghiệm về đường ống dữ liệu

Những người đã áp dụng Airflow để tự động hóa các tác vụ định kỳ hoặc xử lý dữ liệu, nhưng cảm thấy bị hạn chế trong việc sử dụng do chưa hiểu sâu về các khái niệm cốt lõi như
Operator, Hook và Scheduling.

📌

Kỹ sư dữ liệu cấp trung đã có kinh nghiệm vận hành Airflow

Những người muốn giải quyết hiệu quả các vấn đề phát sinh trong quá trình vận hành Airflow như đảm bảo tính lũy đẳng, triển khai logic thử lại, lỗi thiết lập múi giờ, v.v.
và muốn thiết kế các đường ống dữ liệu ổn định, hiệu quả hơn.

Lưu ý trước khi học


Môi trường thực hành 💾

Thông số môi trường thực hành

  • Hệ điều hành (OS): Thực hành được tiến hành trên Windows, nhưng cũng có thể thực hiện trên Mac mà không gặp vấn đề gì.


  • Cấu hình PC: Cần PC có quyền truy cập internet để cài đặt Docker, Docker Desktop và VSCode, với RAM tối thiểu 6GB

  • Airflow được cài đặt dưới dạng Docker Container bằng cách sử dụng Astro CLI. Phiên bản Airflow là 3.1.

Tài liệu học tập

  • Tài liệu bài giảng có thể được tải xuống ngay trong khóa học.

  • Tài liệu thực hành có thể được tải xuống tại https://github.com/chulminkw/airflow_part_01 . Bằng cách xem mã thực hành, bạn có thể đánh giá trước trình độ Python và SQL cần thiết để theo học khóa học này.

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Dành cho tất cả những ai đang sử dụng Airflow nhưng không biết tại sao nó lại hoạt động như vậy.

  • Kỹ sư dữ liệu cấp độ Junior ~ Mid-level

  • Nhà phát triển Backend (phụ trách xử lý dữ liệu/batch) muốn chuyển sang làm Kỹ sư dữ liệu (Data Engineer)

  • Kỹ sư AI cần xây dựng đường ống dữ liệu (data pipeline) cho MLOps (mặc dù khóa học này không trực tiếp đề cập đến AI)

  • Tất cả những người làm thực tế muốn học Airflow một cách "bài bản"

Cần biết trước khi bắt đầu?

  • Kỹ năng sử dụng cơ bản Python và SQL

Xin chào
Đây là dooleyz3525

27,730

Học viên

1,484

Đánh giá

4,062

Trả lời

4.9

Xếp hạng

15

Các khóa học

(Cựu) Tư vấn viên tại Encore Consulting

(Cựu nhân viên) Oracle Korea

Tư vấn viên AI tự do

Tác giả cuốn sách "Cẩm nang học máy Python toàn tập"

Thêm

Chương trình giảng dạy

Tất cả

124 bài giảng ∙ (20giờ 54phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Chưa có đủ đánh giá.
Hãy trở thành tác giả của một đánh giá giúp mọi người!

Khóa học khác của dooleyz3525

Hãy khám phá các khóa học khác của giảng viên!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!

Ưu đãi có thời hạn, kết thúc sau 3 ngày ngày

39.600 ₫

40%

1.399.862 ₫