강의

멘토링

로드맵

Inflearn brand logo image
Data Science

/

Data Engineering

dbt, tiêu chuẩn mới của kỹ thuật phân tích dữ liệu

Việc quản lý các pipeline lặp đi lặp lại của Kho dữ liệu (DW), giờ đây hãy giải thoát khỏi gánh nặng đó với dbt! Trên nền tảng hiệu quả do dbt cung cấp, hãy trở thành kỹ sư phân tích dữ liệu tạo ra giá trị cao hơn, như mô hình hóa dữ liệu lấy kinh doanh làm trọng tâm, quản lý vòng đời dữ liệu hiệu quả, v.v.

(4.9) 13 đánh giá

61 học viên

  • DeepingSauce
dbt
Big Data
Business Productivity
Data Engineering
Data literacy

Đánh giá từ những học viên đầu tiên

Dịch cái này sang tiếng Việt

  • Hands-on trực tiếp tạo và quản lý các tài nguyên cốt lõi của dbt như Source, Seed, Model, Test, Docs, v.v.

  • Toàn bộ quá trình từ init dbt repository, cấu hình môi trường, cho đến phát triển mô hình thực tế.

  • Cách dbt giải quyết các vấn đề cố hữu trong vận hành kho dữ liệu như quản lý đường ống dữ liệu phức tạp, đảm bảo chất lượng dữ liệu và lập tài liệu.

  • Kỹ thuật chuyên sâu để tối đa hóa năng suất với dbt, như Incremental Materialization, dbt Packages, Quản lý Schema.

  • Phương pháp xây dựng và vận hành pipeline dữ liệu hiệu quả và ổn định hơn bằng cách sử dụng dbt kết hợp với Airflow (kèm so sánh với phương pháp truyền thống)

  • Insight từ kinh nghiệm: Khi dbt được triển khai thực tế, Data Analytics Engineer thay đổi cách làm việc và tập trung vào các vấn đề quan trọng hơn.

🔥 Chấm dứt cơn đau tái phát của phẫu thuật DW bằng dbt.


😥 Bạn có thấy mình dành cả ngày để theo dõi các phụ thuộc phức tạp trong đường ống dữ liệu, truy tìm dữ liệu bị hỏng và thở dài khi thấy tài liệu không ai cập nhật không?

Nếu bạn biết SQL và Airflow nhưng vẫn cảm thấy như mình đang phát minh lại bánh xe khi dành thời gian cho những nhiệm vụ lặp đi lặp lại này, thì bạn đã đến đúng nơi rồi.

Bạn có chú ý đến dbt (công cụ xây dựng dữ liệu), thứ đang thay đổi cục diện của kỹ thuật phân tích dữ liệu không? Gần đây, ngay cả các công ty công nghệ lớn ở Thung lũng Silicon cũng ngày càng yêu cầu các kỹ năng về dbt trong các bài đăng tuyển dụng (JD) của họ, chứng tỏ dbt không còn là một kỹ năng tùy chọn nữa mà là một kỹ năng bắt buộc phải có. Thật vậy, dbt đang tạo ra những đổi mới đáng kể bằng cách cung cấp các giải pháp mạnh mẽ cho một số thách thức lâu dài trong lĩnh vực kho dữ liệu.


(Ngay cả trong Big Tech JD, dbt cũng đang dần dần thâm nhập...)

Tuy nhiên, thực tế là nhiều công ty và nhóm vẫn chưa khai thác hết tiềm năng thực sự của DBT. "DBT rất tuyệt vời, nhưng làm thế nào để tích hợp nó vào kho dữ liệu của chúng ta?" Đối với những ai đang tìm kiếm câu trả lời cho câu hỏi này, mục tiêu cốt lõi của khóa học này là áp dụng DBT vào các tác vụ thực tế , loại bỏ tình trạng kém hiệu quả trong hoạt động kho dữ liệu và giúp các kỹ sư dữ liệu tập trung vào các vấn đề cơ bản, quan trọng hơn .

Khóa học này không chỉ dừng lại ở việc giải thích chức năng đơn thuần. Nó đi sâu vào bối cảnh ra đời của dbt (" Tại sao ") và các nguyên tắc cốt lõi (" Làm thế nào ") giúp giải quyết những thách thức dai dẳng trong lĩnh vực này, bao gồm quản lý dòng dõi dữ liệu, đảm bảo chất lượng, lập tài liệu và lấp đầy dữ liệu . Hơn nữa, thông qua kinh nghiệm và các ví dụ sinh động, tôi sẽ chứng minh cách áp dụng thực tế các nguyên tắc này, cùng với các ứng dụng thực tế như tích hợp hiệu quả với Airflow, có thể mang lại những kết quả đáng chú ý : năng suất làm việc tăng tối thiểu năm lần ("Tác động") .

Hãy để dbt đảm nhiệm những nhiệm vụ đơn giản, lặp đi lặp lại. Và với những khả năng mới mà dbt mở ra, tôi hy vọng bạn sẽ nắm bắt cơ hội này để khám phá các giá trị cốt lõi của dữ liệu, bao gồm kiến trúc/mô hình hóa dữ liệu và vòng đời kỹ thuật dữ liệu, và phát triển thành một kỹ sư có năng lực hơn.

Các đặc điểm của bài giảng này là:


📖 Chương trình giảng dạy có hệ thống dựa trên kể chuyện

Không giống như tài liệu hoặc bài giảng DBT chính thức, vốn theo định dạng tổng hợp từng tính năng, cuốn sách này được cấu trúc theo phong cách kể chuyện, bắt đầu với việc thiết lập dự án DBT và dần dần mở rộng và đào sâu chức năng của nó . Mỗi phần được kết nối một cách tự nhiên, cho phép hiểu một cách tự nhiên bức tranh tổng thể của DBT.

💻 Lý thuyết + Thực hành + Mẹo thực tế

Cung cấp kinh nghiệm thực tế phong phú về xây dựng và chạy các dự án dbt trực tiếp trong môi trường cục bộ (DuckDB) cùng với giải thích về các khái niệm cốt lõi của dbt.

🆚 Tích hợp luồng không khí: So sánh rõ ràng với các phương pháp hiện có

Khóa học này hướng dẫn cách sử dụng Airflow, một công cụ điều phối đường ống dữ liệu, với dbt. Cụ thể, khóa học so sánh quy trình xây dựng đường ống kém hiệu quả khi chỉ sử dụng Airflow (không có dbt) với sự cải thiện đáng kể đạt được khi sử dụng dbt, qua đó chứng minh sức mạnh của sự kết hợp dbt + Airflow.

📈 Bí quyết tăng năng suất gấp 5 lần: Kiến thức chuyên môn dựa trên kinh nghiệm

Thay vì chỉ liệt kê các tính năng của DBT, cuốn sách này truyền tải một cách sinh động lý do tại sao DBT lại mạnh mẽ và cách nó có thể tăng đáng kể năng suất làm việc, dựa trên những thách thức và quy trình giải quyết vấn đề gặp phải khi triển khai DBT từ đầu trong các lĩnh vực thực tế.

Học những điều như thế này


  1. Nắm được triết lý cốt lõi của DBT và kỹ năng giải quyết vấn đề về dữ liệu.


  • Không chỉ đơn thuần là học cách sử dụng DBT, hãy hiểu các giá trị cốt lõi và triết lý đã biến DBT trở thành tiêu chuẩn trong kỹ thuật phân tích dữ liệu.

  • Dựa trên điều này, bạn sẽ hiểu rõ cách DBT có thể giải quyết hiệu quả các vấn đề dai dẳng trong kho dữ liệu, chẳng hạn như khó khăn trong quản lý dòng dõi dữ liệu, chất lượng dữ liệu kém, thiếu tài liệu và công việc lấp đầy lặp đi lặp lại.


  1. Tăng cường khả năng xây dựng đường ống dữ liệu thực tế bằng SQL và Jinja/macro.

  • Tìm hiểu cách tận dụng các tính năng nâng cao của DBT, chẳng hạn như Jinja, Macro và Mô hình gia tăng , để giảm sự lặp lại mã SQL, tăng khả năng tái sử dụng và tối ưu hóa hiệu quả xử lý lượng dữ liệu lớn.

  • Tìm hiểu cách áp dụng các bài kiểm tra chất lượng dữ liệu vào bảng của bạn dễ dàng hơn bất kỳ cách nào khác.

  1. Danh mục dữ liệu tập trung, dbt Docs

  • DBT Docs tìm kiếm và chia sẻ hiệu quả danh sách bảng/lượt xem, mô tả từng cột và kiểu dữ liệu, sơ đồ dòng dõi chi tiết giữa các mô hình, danh sách và kết quả thử nghiệm được áp dụng cũng như nhiều thông tin siêu dữ liệu khác nhau tại một nơi, do đó cải thiện khả năng hiểu dữ liệu chung của nhóm và tạo ra môi trường cộng tác mượt mà, dựa trên dữ liệu .

  1. Hoạt động đường ống dữ liệu ổn định thông qua tích hợp Airflow

  • Tìm hiểu kiến trúc thực tế kết hợp lỏng lẻo dbt và Airflow để phân tách rõ ràng logic chuyển đổi dữ liệu (dbt) và logic phối hợp (Airflow) và tự động hóa toàn bộ quy trình.

  • Nhờ tính năng quản lý phụ thuộc tự động của dbt, việc cấu hình DAG của Airflow đã trở nên đơn giản hơn nhiều, giảm thiểu lỗi do con người gây ra do thiết lập thủ công phức tạp và đảm bảo tính ổn định vận hành. Điều này được thể hiện rõ qua so sánh trước và sau khi triển khai dbt.

Ví dụ thực hành về bài giảng

Phát triển mô hình chỉ tập trung vào logic: Phát triển nhanh chóng các mô hình SQL trong khi quan sát nguồn gốc dữ liệu.

dbt docs: Thu thập tất cả siêu dữ liệu của bạn: Giờ đây, bạn có thể dễ dàng tạo tài liệu dữ liệu phong phú.

Tích hợp Airflow dễ dàng : Tự động hóa DAG Airflow với các phụ thuộc bảng còn nguyên vẹn.

Triển khai kiểm tra chất lượng dữ liệu chỉ trong 3 dòng mã : Triển khai kiểm tra chất lượng dữ liệu chỉ trong 3 dòng mã.

Sau khi tham gia lớp học,


Bạn sẽ học được các chức năng cốt lõi của DBT và đạt được mức độ hiểu biết có thể áp dụng ngay vào thực tế .

Không chỉ đơn thuần là 'biết' về DBT, bạn sẽ hiểu rõ 'lý do' và 'cách' sử dụng DBT và có thể sử dụng một cách tự tin.

DBT có thể cải thiện chất lượng và tính ổn định của đường truyền dữ liệu của bạn và nâng cao hiệu quả cộng tác .

Giải phóng bản thân khỏi những nhiệm vụ lặp đi lặp lại và tốn thời gian khi vận hành kho dữ liệu (theo dõi dòng dõi, lập tài liệu thủ công, bổ sung dữ liệu phức tạp, v.v.) .

Với dbt, bạn có thể phát triển thành một kỹ sư có thể tập trung vào các giá trị cốt lõi như thiết kế logic SQL hiệu quả phản ánh chính xác các yêu cầu kinh doanh và tăng tính hoàn thiện về mặt cấu trúc của các mô hình dữ liệu, giải phóng bạn khỏi các tác vụ vận hành lặp đi lặp lại.


Tôi giới thiệu điều này cho những người này

"Tôi muốn tự động hóa việc quản lý đường ống dữ liệu theo cách thông minh hơn."

Một kỹ sư dữ liệu (phân tích) mới vào nghề, quen thuộc với SQL/Airflow nhưng muốn tập trung vào tự động hóa chuyển đổi dữ liệu hiệu quả thay vì các hoạt động DW lặp đi lặp lại.

"Tôi biết dbt tốt... nhưng làm thế nào để áp dụng nó vào DW của công ty chúng tôi?"

Các chuyên gia dữ liệu có kiến thức cơ bản về khái niệm DBT nhưng tò mò về cách sử dụng DBT trong các tình huống thực tế để giải quyết các vấn đề tồn tại lâu dài (dòng dõi, chất lượng, tài liệu, v.v.) trong môi trường DW thực tế.

"Tôi muốn thăng tiến lên vị trí Kỹ sư phân tích dữ liệu 'THỰC SỰ'!"

Những người muốn phát triển năng lực cốt lõi của một 'kỹ sư phân tích dữ liệu' vượt ra ngoài hoạt động đường ống đơn giản, thông qua mô hình hóa dữ liệu hiệu quả, khả năng tái sử dụng SQL và tự động hóa thử nghiệm.

Những điều cần lưu ý trước khi tham gia khóa học


💻 Môi trường thực hành

  • Bài giảng này dựa trên môi trường macOS.

    • Người dùng môi trường Windows có thể cần thiết lập dấu nhắc Anaconda hoặc WSL2 (như trong các bài giảng trước), nhưng không có hướng dẫn nào được cung cấp cho những mục đích này.


  • Giả sử Anaconda và các môi trường khác đã được thiết lập. (Việc tạo môi trường ảo Anaconda và sử dụng pip không được mô tả.)

  • Phiên bản thư viện đã sử dụng


    nhà thiên văn học-vũ trụ==1.9.2 dbt-duckdb==1.9.2 lõi dbt==1.9.4
  • Các công cụ chính khác được sử dụng ngoài thư viện: VSCode (có Cursor), DuckDB, DBeaver

  • Tài liệu học tập được cung cấp kèm theo mã nguồn dựa trên phiên bản cuối cùng của bài giảng (kho lưu trữ dbt, kho lưu trữ airflow).


🧑‍💻 Tài liệu bài giảng

  • Tài liệu bài giảng (mã nguồn) được cung cấp bao gồm biểu mẫu đã hoàn thành của bài giảng cuối cùng.

  • Do đó, chúng tôi khuyên bạn nên sử dụng mã được cung cấp làm tài liệu tham khảo khi gặp khó khăn và thực hành bằng cách tự viết mã theo chương trình học. Bằng cách nhập và thực thi mã thủ công, bạn sẽ hiểu sâu hơn về tài liệu.


🚨 Lưu ý

  • Vui lòng xem phần định hướng . Phần này rất quan trọng để hiểu mục tiêu và phạm vi của khóa học.

  • Phiên bản thư viện được sử dụng trong các video bài giảng có thể khác với phiên bản thư viện mới nhất tại thời điểm đăng ký khóa học. Cũng như các bài giảng trước, khóa học này tập trung vào các nguyên tắc, cung cấp hiểu biết sâu sắc về triết lý cốt lõi và phương pháp giải quyết vấn đề của DBT . Do đó, một mục tiêu học tập khác là trau dồi các kỹ năng thực tế để tự điều hướng và thích nghi, tham khảo tài liệu chính thức và các nguồn lực cộng đồng, mà không bị choáng ngợp bởi sự khác biệt về phiên bản thư viện hoặc thay đổi ngữ pháp. (Với việc nắm vững các nguyên tắc cốt lõi, bạn sẽ có thể chủ động thích nghi với bối cảnh công nghệ luôn thay đổi.)

  • Thay vì làm theo từ đầu, có thể hiệu quả hơn nếu bạn thực hiện toàn bộ quy trình một lần rồi quay lại và thực hành phần thực hành (có mối tương quan cao giữa các phần).

  • Khóa học này không bao gồm việc trích xuất dữ liệu từ hệ thống nguồn, tải dữ liệu ban đầu vào hồ dữ liệu/kho dữ liệu, hoặc xử lý dữ liệu phát trực tuyến theo thời gian thực. Khóa học này tập trung vào việc chuyển đổi và mô hình hóa bảng dữ liệu ở tầng kho dữ liệu.


Giới thiệu những người chia sẻ kiến thức


Tôi là một nhà phát triển chuyên giải quyết nhiều vấn đề khác nhau trong lĩnh vực kỹ thuật dữ liệu.

Tôi cũng đã gặp phải vô số thách thức khi xây dựng và vận hành kho dữ liệu (DW) trong lĩnh vực của mình, bao gồm khó khăn trong việc theo dõi dòng dõi dữ liệu, các tác vụ backfill lặp đi lặp lại và quản lý các tài liệu không đồng bộ. Chính trong hành trình đầy gian nan (hoặc có lẽ là vô cùng gian nan) này, tôi đã khám phá ra dbt, và cá nhân tôi đã trải nghiệm những lợi ích đáng kể về năng suất và những thay đổi tích cực trong văn hóa phát triển mà nó mang lại. Sử dụng dbt, tôi quản lý hiệu quả khoảng 5.000 tài sản dữ liệu (bảng nguồn, bảng DW, bảng điều khiển, v.v.) tại nơi làm việc. Điều này đã cải thiện đáng kể năng suất và tác động tích cực đến văn hóa phát triển của chúng tôi. Tôi cũng sử dụng nó như một thành phần cốt lõi trong hệ thống đầu tư định lượng cá nhân của mình.

Thật nản lòng khi thấy rất nhiều đồng nghiệp kỹ sư của tôi vẫn mắc kẹt trong phương pháp kém hiệu quả là "phát minh lại bánh xe". Vì vậy, tôi đã chuẩn bị bài giảng này để chia sẻ những kinh nghiệm đổi mới và bí quyết giải quyết vấn đề mà tôi đã có được thông qua dbt, tạo ra một con đường để bạn dễ dàng và hiệu quả hơn trong việc đắm mình vào thế giới mạnh mẽ của dbt.

Tôi hy vọng khóa học này không chỉ đơn thuần dạy bạn cách sử dụng công cụ mà còn trở thành cơ hội để bạn thoát khỏi những công việc lặp đi lặp lại và trải nghiệm sự đổi mới và phát triển trong cách làm việc mà dbt mang lại .


Các khóa học khác trên Inflearn:

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Người đang tìm kiếm giải pháp cho các vấn đề cố hữu trong vận hành kho dữ liệu như nắm bắt data lineage, quản lý chất lượng, tài liệu hóa, backfill, v.v.

  • Những ai đã từng nghe về công cụ dbt hoặc sử dụng thử một cách đơn giản, nhưng muốn nắm bắt cách áp dụng hiệu quả vào dự án thực tế.

  • Những ai đã tiếc nuối vì các bài giảng hay tài liệu dbt hiện có thường rời rạc hoặc chỉ tập trung vào môi trường đám mây, và mong muốn một khóa học dbt tiếng Hàn được kể chuyện.

  • Kỹ sư phân tích dữ liệu (Analytics Engineer) muốn tối đa hóa năng suất và tập trung vào những vấn đề quan trọng hơn (mô hình hóa, thiết kế kiến trúc, v.v.)

  • Kỹ sư dữ liệu gặp khó khăn trong các tác vụ lặp đi lặp lại và quản lý khi xây dựng/vận hành đường ống dữ liệu.

  • Những ai tò mò về công việc và khó khăn trong lĩnh vực Data Warehouse.

  • Chuyên viên phân tích dữ liệu (Data Analyst) muốn mở rộng vai trò của mình vượt khỏi công việc phân tích, thông qua dbt.

Cần biết trước khi bắt đầu?

  • [Bắt buộc] Cần hiểu khái niệm về 'Python ai cũng học được (dù dân XH hay không chuyên ngành)' hoặc nội dung Python cơ bản, và 'thư viện' (dbt dựa trên Python)

  • [Bắt buộc] Kiến thức cơ bản về môi trường phát triển: Thành thạo môi trường ảo Conda (hoặc venv) và Terminal dựa trên Unix (macOS/Linux)

  • [Bắt buộc] Kỹ năng viết truy vấn SQL cơ bản

  • [Khuyến khích] Kinh nghiệm kỹ sư dữ liệu (Analytics/Warehouse) tầm 1 năm, hoặc kinh nghiệm chạy Airflow nền container và tạo/vận hành DAG đơn giản.

Xin chào
Đây là

16,200

Học viên

580

Đánh giá

326

Trả lời

4.8

Xếp hạng

5

Các khóa học

데이터로 미래를 설계하고 현실의 문제를 해결하는 데이터 엔지니어입니다.

데이터 기반 통찰을 사랑하며, 평생 학습(Life-long Learner)하고 지식을 나누는 기여자(Contributor)가 되고자 합니다

Chương trình giảng dạy

Tất cả

42 bài giảng ∙ (10giờ 16phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

13 đánh giá

4.9

13 đánh giá

  • thecross님의 프로필 이미지
    thecross

    Đánh giá 1

    Đánh giá trung bình 5.0

    5

    62% đã tham gia

    The dbt content was so extensive that I couldn't grasp the concepts well, but it seems like you've captured the key points that beginners would be curious about... I wish you had covered some deeper content as well, but at this level, I think I can now learn the necessary parts on my own.

    • pcy78059442님의 프로필 이미지
      pcy78059442

      Đánh giá 2

      Đánh giá trung bình 5.0

      5

      100% đã tham gia

      • cr7님의 프로필 이미지
        cr7

        Đánh giá 1

        Đánh giá trung bình 5.0

        5

        76% đã tham gia

        The basic content is good. However, it would have been nice to have examples that implement data pipelines that might actually be built in real-world scenarios.

        • myprofilelove님의 프로필 이미지
          myprofilelove

          Đánh giá 1

          Đánh giá trung bình 4.0

          4

          52% đã tham gia

          Great~

          • learningpower님의 프로필 이미지
            learningpower

            Đánh giá 1

            Đánh giá trung bình 5.0

            5

            31% đã tham gia

            I applied to listen only to the parts of dbt I didn't know well, but there was a lot of content I had been understanding incorrectly. So I'm just going to go through it all from the beginning again.

            Ưu đãi có thời hạn, kết thúc sau 7 ngày ngày

            62 ₫

            20%

            2.092.594 ₫

            Khóa học khác của DeepingSauce

            Hãy khám phá các khóa học khác của giảng viên!

            Khóa học tương tự

            Khám phá các khóa học khác trong cùng lĩnh vực!