inflearn logo

Thực hành Big Data Hadoop & Hive ứng dụng LLM - Hệ sinh thái Hadoop cùng AI Tutor

Thực hành Big Data Hadoop & Hive ứng dụng LLM Hệ sinh thái Hadoop cùng với AI Tutor Đây là khóa học tập trung vào thực hành nhằm giúp người học hiểu về Hệ sinh thái Hadoop - công nghệ cốt lõi trong kỷ nguyên Big Data, đồng thời học cách xử lý dữ liệu quy mô lớn bằng cách sử dụng lưu trữ phân tán (HDFS), xử lý phân tán (MapReduce) và kho dữ liệu (Hive). Khóa học được cấu trúc để bạn có thể nắm vững từng bước các công nghệ cốt lõi trong xử lý Big Data, từ cấu trúc cơ bản và nguyên lý hoạt động của Hadoop đến HDFS, YARN, MapReduce và Hive. Đặc biệt, thông qua việc thực hiện từ xây dựng môi trường thực hành dựa trên máy ảo đến xử lý và phân tích dữ liệu thực tế, người học có thể trang bị các kỹ năng có thể áp dụng ngay vào công việc thực tế. Ngoài ra, khóa học này vượt xa các bài giảng video đơn thuần bằng cách cung cấp môi trường tự học sử dụng AI Tutor dựa trên LLM. Học viên có thể tối đa hóa hiệu quả học tập thông qua AI Tutor với các tính năng như giải đáp thắc mắc về khái niệm Hadoop và Hive, khắc phục lỗi, tạo bài tập thực hành, hỗ trợ viết HiveQL và hướng dẫn học tập theo dự án.

8 học viên đang tham gia khóa học này

Độ khó Trung cấp trở lên

Thời gian Không giới hạn

Java
Java
SQL
SQL
Hadoop
Hadoop
Linux
Linux
hiveql
hiveql
Java
Java
SQL
SQL
Hadoop
Hadoop
Linux
Linux
hiveql
hiveql

Bạn sẽ nhận được điều này sau khi học.

  • Đảm bảo khả năng xây dựng và quản lý hạ tầng Big Data tập trung vào thực tiễn: Không chỉ dừng lại ở lý thuyết, bạn có thể nắm vững hoàn toàn các kỹ thuật vận hành hệ thống có khả năng ứng dụng ngay tại hiện trường thực tế như định dạng NameNode, thiết lập tường lửa, vận hành dịch vụ trong môi trường Hadoop 1.0.4 và Hive 0.9.0.

  • Tăng cường năng lực thiết kế phân tích hiệu quả và tính ổn định của dữ liệu: Hiểu rõ sự khác biệt giữa bảng nội bộ (internal table) và bảng bên ngoài (external table) của Hive, đặc biệt là nắm vững kỹ thuật thiết kế tối ưu hóa trong thực tế bằng cách sử dụng tùy chọn LOCATION để bảo tồn dữ liệu gốc một cách an toàn ngay cả khi cấu trúc bảng bị xóa.

  • Nắm vững kỹ thuật kiểm soát dữ liệu quy mô lớn mà không cần lập trình phức tạp: Thay vì phải trực tiếp lập trình MapReduce phức tạp dựa trên Java, bạn có thể phát triển năng lực cấp độ chuyên gia để tự do phân tích và quản lý dữ liệu khổng lồ từ cấp độ Terabyte trở lên bằng cách sử dụng HiveQL - một phương thức SQL quen thuộc.

  • Phương pháp học tập sử dụng AI Tutor dựa trên LLM

  • Cơ bản về vận hành cụm Hadoop

  • Thực hành lưu trữ và xử lý dữ liệu lớn

  • Xây dựng và sử dụng kho dữ liệu Hive

  • Xây dựng cơ sở hạ tầng: Toàn bộ quy trình từ định dạng HDFS Namenode đến thiết lập tường lửa và vận hành dịch vụ

  • Độ ổn định dữ liệu: Đảm bảo tính vĩnh cửu của dữ liệu thông qua thiết kế bảng bên ngoài (external table)

  • Phân tích thực tiễn: Quản lý siêu dữ liệu (metadata) và kỹ thuật xử lý dữ liệu cấu trúc bằng HiveQL

  • Giá trị kinh doanh: Hoàn thiện quy trình xử lý dữ liệu lớn vượt xa giới hạn của Excel

1. Đặt vấn đề: "Dữ liệu tràn ngập, nhưng tại sao chúng ta vẫn cảm thấy bị giới hạn trong việc khai thác?"

Khi quy mô dữ liệu của doanh nghiệp vượt qua mức Terabyte (TB) và bước vào kỷ nguyên Petabyte (PB), các cơ sở dữ liệu quan hệ (RDBMS) truyền thống đã không còn có thể giải quyết được các vấn đề về tốc độ xử lý và chi phí. Đặc biệt, những người làm thực tế thường gặp phải những rào cản thực tế như "nên tích lũy dữ liệu ở đâu và như thế nào cho an toàn", hay "liệu có thể phân tích dữ liệu lớn chỉ bằng SQL mà không cần lập trình phức tạp hay không". Sự lo lắng về việc mất mát dữ liệu và sự giảm sút hiệu quả quản lý sẽ dẫn trực tiếp đến thất bại của các dự án Big Data.

2. Giải pháp hướng đến kết quả: "Kết hợp Hive và Hadoop để đồng thời nắm giữ quyền kiểm soát dữ liệu và hiệu quả phân tích"

Khóa học này nhằm mục đích giúp bạn hiểu rõ hoàn hảo các cơ chế cốt lõi của hạ tầng Big Data thông qua môi trường Hadoop 1.0.4 và Hive 0.9.0. Học viên sẽ phân biệt rõ ràng sự khác biệt giữa bảng nội bộ (Internal Table) và bảng ngoại vi (External Table) thông qua thực hành, đồng thời nắm vững kỹ thuật thiết kế tối ưu hóa trong thực tế để bảo tồn dữ liệu gốc ngay cả khi cấu trúc bảng bị xóa bằng cách sử dụng tùy chọn LOCATION. Kết quả là, học viên sẽ trở thành chuyên gia phân tích có khả năng kiểm soát dữ liệu quy mô lớn một cách tự do thông qua HiveQL mà không cần lập trình MapReduce phức tạp.

3. Thông điệp từ người chia sẻ kiến thức: "Truyền tải những kỹ năng có thể thực hiện ngay tại hiện trường thực tế thay vì chỉ dừng lại ở lý thuyết"

" Xin chào, tôi là Jang Young-hwan, một chuyên gia đào tạo kỹ thuật IT đang hỗ trợ cho sự phát triển của các bạn. Chương trình học gồm 30 bài giảng này không đơn thuần là liệt kê kiến thức, mà là sự đúc kết từ vô số những lần thử sai và bí quyết mà tôi đã trải qua trong thực tế. Nền tảng của AI và Machine Learning - cốt lõi của cuộc Cách mạng Công nghiệp lần thứ 4 - suy cho cùng chính là 'dữ liệu'. Thông qua khóa học này, tôi hy vọng các bạn sẽ được trang bị vũ khí mạnh mẽ để có thể tự tin chèo lái trên dòng chảy khổng lồ mang tên Big Data. Tôi sẽ là người hướng dẫn đáng tin cậy trên hành trình kỹ thuật dữ liệu của các bạn.

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Dành cho các kỹ sư mong muốn thiết kế hạ tầng ổn định không gây mất mát dữ liệu: Phù hợp với những ai muốn hiểu chính xác khái niệm Bảng ngoại vi (External Table) của Hive và học hỏi các kỹ thuật thiết kế thực tiễn để bảo tồn dữ liệu gốc một cách an toàn ngay cả khi xảy ra lỗi hệ thống hoặc xóa dữ liệu do sai sót.

  • Dành cho các nhà phân tích muốn xử lý dữ liệu lớn mà không cần lập trình phức tạp: Khuyên dùng cho những ai muốn sở hữu năng lực phân tích và kiểm soát tự do dữ liệu quy mô lớn từ cấp độ Terabyte trở lên bằng cách sử dụng HiveQL - một phương thức SQL quen thuộc, thay vì phải lập trình MapReduce phức tạp dựa trên Java.

  • Người mới bắt đầu muốn làm chủ hoàn toàn hệ sinh thái Hadoop từ cơ bản đến vận hành thực tế: Nội dung này rất hữu ích cho những ai muốn thực hành trực tiếp toàn bộ quy trình thiết lập môi trường Hadoop như định dạng NameNode, cài đặt tường lửa, vận hành dịch vụ, từ đó hệ thống hóa lại toàn bộ luồng công việc của kỹ thuật dữ liệu lớn (Big Data Engineering).

Cần biết trước khi bắt đầu?

  • Kỹ năng vận hành Linux cơ bản: Để khởi chạy các dịch vụ Hadoop, bạn cần phải quen thuộc với môi trường thực thi lệnh dựa trên shell command như start-all.sh, đồng thời cần có hiểu biết cơ bản về thiết lập tường lửa và cách quản lý tệp nhật ký (log file) trên hệ thống Linux.

  • Kiến thức cơ bản về SQL (Structured Query Language): Vì Hive sử dụng HiveQL tương tự như SQL để xử lý dữ liệu, nên bạn cần nắm vững cấu trúc ngôn ngữ truy vấn cơ bản như tạo bảng (CREATE), truy vấn dữ liệu (SELECT), xóa bảng (DROP).

  • Khái niệm HDFS và MapReduce: Nếu bạn đã hiểu trước về nguyên lý hoạt động của Hệ thống tệp phân tán Hadoop (HDFS) và quy trình làm việc của MapReduce, bạn sẽ có thể nắm bắt nhanh chóng hơn cơ chế quản lý dữ liệu của Hive trong hệ sinh thái Hadoop.

  • Cơ sở thiết kế cơ sở dữ liệu: Nội dung bao gồm thực hành thiết kế phân biệt giữa bảng nội bộ (internal table) và bảng bên ngoài (external table) để nâng cao hiệu quả phân tích dữ liệu, vì vậy các khái niệm cơ bản về cấu trúc bảng (Schema) và thiết lập đường dẫn dữ liệu (Location) sẽ rất hữu ích.

  • Cách sử dụng VirtualBox chính (Tạo môi trường thực hành)

  • Kiến thức tiên quyết bắt buộc để thực hành Hadoop

Xin chào
Đây là ywjang23583

Tôi đã đảm nhiệm công việc nhà phát triển tại LG Electronics, một công ty viễn thông, trong khoảng 27 năm. Sau khi nghỉ hưu, tôi đã tiến hành giảng dạy các khóa học lập trình phần mềm đại cương tại các trường đại học, cũng như tại các trường dạy nghề và cơ quan nhà nước. Hiện tại, tôi vẫn đang giảng dạy khóa học Internet vạn vật (IoT) tại một trường đào tạo nghề.

Tôi muốn ghi lại bài giảng với nội dung như dưới đây và chia sẻ nó.

1.Khóa học R thống kê Cơ bản/Nâng cao

2. Kỹ thuật công nghệ IoT vạn vật - Bộ phận thu thập dữ liệu cảm biến Arduino

3.Kỹ thuật Raspberry Pi

4. Khóa học cơ bản/nâng cao về ứng dụng AI (Hiểu thuật toán cơ bản và cách sử dụng công cụ)

5.Kỹ thuật triển khai nền tảng mang tính hệ thống để cấu hình trang trại thông minh (Smart Farm)

6. Kỹ thuật Tableau và PowerBI - các công cụ trực quan hóa dữ liệu

7. Kỹ thuật và phương pháp 6 Sigma trong thực tế công việc

8. Xây dựng hệ sinh thái Hadoop phân tích dữ liệu lớn

Thêm

Chương trình giảng dạy

Tất cả

30 bài giảng ∙ (8giờ 50phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Chưa có đủ đánh giá.
Hãy trở thành tác giả của một đánh giá giúp mọi người!

Khóa học khác của ywjang23583

Hãy khám phá các khóa học khác của giảng viên!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!

Ưu đãi có thời hạn, kết thúc sau 3 ngày ngày

48 ₫

29%

1.846.943 ₫