inflearn logo

HADOOP ECOSYSTEM : Tối ưu hóa thực tế BIGDATA PROCESS

Khóa học này nhằm mục đích giúp những người làm thực tế vượt qua các giới hạn kỹ thuật trong môi trường dữ liệu lớn (Big Data) rộng lớn, đồng thời xây dựng năng lực quản lý dữ liệu có hệ thống thông qua hệ sinh thái Hadoop. Thông qua khóa học này, các học viên có thể nhận được những giá trị cốt lõi sau: Giải quyết vấn đề thực tiễn: Hiểu được những hạn chế của các hệ thống hiện tại khi quy mô dữ liệu mở rộng, và học cách xử lý phân tán hiệu quả thông qua Hadoop. Đảm bảo tính an toàn của dữ liệu: Thông qua việc thiết kế bảng ngoại vi (External Table) trong Hive, học viên sẽ nắm vững các kỹ thuật tối ưu hóa thực tế để bảo vệ dữ liệu gốc an toàn ngay cả khi bảng vô tình bị xóa. Tối đa hóa hiệu quả phân tích: Tiếp thu các kỹ năng cấp độ chuyên gia để tự do kiểm soát và phân tích dữ liệu quy mô lớn bằng cách sử dụng HiveQL mà không cần lập trình phức tạp. Hướng dẫn từ chuyên gia: Người chia sẻ kiến thức với nhiều năm kinh nghiệm và bí quyết đào tạo IT sẽ trực tiếp truyền đạt các kỹ năng thực chiến có thể áp dụng ngay tại hiện trường. Hãy tham gia ngay vào hành trình 30 bài giảng để trở thành một kỹ sư dữ liệu khác biệt trong dòng chảy khổng lồ mang tên Big Data.

4 học viên đang tham gia khóa học này

Độ khó Trung cấp trở lên

Thời gian Không giới hạn

Java
Java
SQL
SQL
Hadoop
Hadoop
Linux
Linux
hiveql
hiveql
Java
Java
SQL
SQL
Hadoop
Hadoop
Linux
Linux
hiveql
hiveql

Bạn sẽ nhận được điều này sau khi học.

  • Đảm bảo khả năng xây dựng và quản lý hạ tầng Big Data tập trung vào thực tiễn: Không chỉ dừng lại ở lý thuyết, bạn có thể nắm vững hoàn toàn các kỹ thuật vận hành hệ thống có khả năng ứng dụng ngay tại hiện trường thực tế như định dạng NameNode, thiết lập tường lửa, vận hành dịch vụ trong môi trường Hadoop 1.0.4 và Hive 0.9.0.

  • Tăng cường năng lực thiết kế phân tích hiệu quả và tính ổn định của dữ liệu: Hiểu rõ sự khác biệt giữa bảng nội bộ (internal table) và bảng bên ngoài (external table) của Hive, đặc biệt là nắm vững kỹ thuật thiết kế tối ưu hóa trong thực tế bằng cách sử dụng tùy chọn LOCATION để bảo tồn dữ liệu gốc một cách an toàn ngay cả khi cấu trúc bảng bị xóa.

  • Nắm vững kỹ thuật kiểm soát dữ liệu quy mô lớn mà không cần lập trình phức tạp: Thay vì phải trực tiếp lập trình MapReduce phức tạp dựa trên Java, bạn có thể phát triển năng lực cấp độ chuyên gia để tự do phân tích và quản lý dữ liệu khổng lồ từ cấp độ Terabyte trở lên bằng cách sử dụng HiveQL - một phương thức SQL quen thuộc.

  • Xây dựng cơ sở hạ tầng: Toàn bộ quy trình từ định dạng HDFS Namenode đến thiết lập tường lửa và vận hành dịch vụ

  • Tính ổn định của dữ liệu: Đảm bảo tính bền vững của dữ liệu thông qua thiết kế bảng ngoại (external table)

  • Phân tích thực tế: Quản lý siêu dữ liệu và kỹ thuật xử lý dữ liệu có cấu trúc bằng cách sử dụng HiveQL

  • Giá trị kinh doanh: Hoàn thiện quy trình xử lý dữ liệu lớn vượt xa giới hạn của Excel

1. Đặt vấn đề: "Dữ liệu tràn ngập, nhưng tại sao chúng ta vẫn cảm thấy bị giới hạn trong việc khai thác?"

Khi quy mô dữ liệu của doanh nghiệp vượt qua mức Terabyte (TB) và bước vào kỷ nguyên Petabyte (PB), các cơ sở dữ liệu quan hệ (RDBMS) truyền thống đã không còn có thể giải quyết được các vấn đề về tốc độ xử lý và chi phí. Đặc biệt, những người làm thực tế thường gặp phải những rào cản thực tế như "nên tích lũy dữ liệu ở đâu và như thế nào cho an toàn", hay "liệu có thể phân tích dữ liệu lớn chỉ bằng SQL mà không cần lập trình phức tạp hay không". Sự lo lắng về việc mất mát dữ liệu và sự giảm sút hiệu quả quản lý dẫn trực tiếp đến thất bại của các dự án Big Data.

2. Giải pháp hướng đến kết quả: "Kết hợp Hive và Hadoop để đồng thời nắm giữ quyền kiểm soát dữ liệu và hiệu quả phân tích"

Khóa học này nhằm mục đích giúp bạn hiểu rõ hoàn hảo các cơ chế cốt lõi của hạ tầng Big Data thông qua môi trường Hadoop 1.0.4 và Hive 0.9.0. Học viên sẽ phân biệt rõ ràng sự khác biệt giữa bảng nội bộ (Internal Table) và bảng ngoại vi (External Table) thông qua thực hành, đồng thời nắm vững kỹ thuật thiết kế tối ưu hóa thực tế bằng cách sử dụng tùy chọn LOCATION để bảo tồn dữ liệu gốc ngay cả khi cấu trúc bảng bị xóa. Kết quả là, học viên sẽ trở thành chuyên gia phân tích có khả năng kiểm soát dữ liệu quy mô lớn một cách tự do thông qua HiveQL mà không cần lập trình MapReduce phức tạp.

3. Thông điệp từ người chia sẻ kiến thức: "Vượt xa lý thuyết, truyền tải những kỹ năng có thể thực thi ngay lập tức tại hiện trường thực tế

" Xin chào, tôi là Jang Young-hwan, một chuyên gia đào tạo công nghệ IT đang hỗ trợ cho sự phát triển của các bạn. Chương trình học gồm 30 bài giảng này không chỉ đơn thuần là liệt kê kiến thức, mà là sự đúc kết từ vô số những thử nghiệm, sai lầm và bí quyết mà tôi đã trải qua trong thực tế. Nền tảng của AI và Machine Learning - cốt lõi của cuộc Cách mạng Công nghiệp lần thứ 4 - suy cho cùng chính là 'dữ liệu'. Thông qua khóa học này, tôi hy vọng các bạn sẽ trang bị cho mình một vũ khí mạnh mẽ để có thể tự tin chèo lái trên dòng chảy khổng lồ mang tên Big Data. Tôi sẽ là người hướng dẫn đáng tin cậy trên hành trình kỹ thuật dữ liệu của các bạn.

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Dành cho các kỹ sư mong muốn thiết kế hạ tầng ổn định không gây mất mát dữ liệu: Phù hợp với những ai muốn hiểu chính xác khái niệm Bảng ngoại vi (External Table) của Hive và học hỏi các kỹ thuật thiết kế thực tiễn để bảo tồn dữ liệu gốc một cách an toàn ngay cả khi xảy ra lỗi hệ thống hoặc xóa dữ liệu do sai sót.

  • Dành cho các nhà phân tích muốn xử lý dữ liệu lớn mà không cần lập trình phức tạp: Khuyên dùng cho những ai muốn sở hữu năng lực phân tích và kiểm soát tự do dữ liệu quy mô lớn từ cấp độ Terabyte trở lên bằng cách sử dụng HiveQL - một phương thức SQL quen thuộc, thay vì phải lập trình MapReduce phức tạp dựa trên Java.

  • Người mới bắt đầu muốn làm chủ hoàn toàn hệ sinh thái Hadoop từ cơ bản đến vận hành thực tế: Nội dung này rất hữu ích cho những ai muốn thực hành trực tiếp toàn bộ quy trình thiết lập môi trường Hadoop như định dạng NameNode, cài đặt tường lửa, vận hành dịch vụ, từ đó hệ thống hóa lại toàn bộ luồng công việc của kỹ thuật dữ liệu lớn (Big Data Engineering).

Cần biết trước khi bắt đầu?

  • Kỹ năng vận hành Linux cơ bản: Để khởi chạy các dịch vụ Hadoop, bạn cần phải quen thuộc với môi trường thực thi lệnh dựa trên shell command như start-all.sh, đồng thời cần có hiểu biết cơ bản về thiết lập tường lửa và cách quản lý tệp nhật ký (log file) trên hệ thống Linux.

  • Kiến thức cơ bản về SQL (Structured Query Language): Vì Hive sử dụng HiveQL tương tự như SQL để xử lý dữ liệu, nên bạn cần nắm vững cấu trúc ngôn ngữ truy vấn cơ bản như tạo bảng (CREATE), truy vấn dữ liệu (SELECT), xóa bảng (DROP).

  • Khái niệm HDFS và MapReduce: Nếu bạn đã hiểu trước về nguyên lý hoạt động của Hệ thống tệp phân tán Hadoop (HDFS) và quy trình làm việc của MapReduce, bạn sẽ có thể nắm bắt nhanh chóng hơn cơ chế quản lý dữ liệu của Hive trong hệ sinh thái Hadoop.

  • Cơ sở thiết kế cơ sở dữ liệu: Nội dung bao gồm thực hành thiết kế phân biệt giữa bảng nội bộ (internal table) và bảng bên ngoài (external table) để nâng cao hiệu quả phân tích dữ liệu, vì vậy các khái niệm cơ bản về cấu trúc bảng (Schema) và thiết lập đường dẫn dữ liệu (Location) sẽ rất hữu ích.

  • Cách sử dụng VirtualBox chính (Tạo môi trường thực hành)

  • Kiến thức tiên quyết bắt buộc để thực hành Hadoop

Xin chào
Đây là ywjang23583

Tôi đã đảm nhiệm công việc nhà phát triển tại LG Electronics, một doanh nghiệp viễn thông, trong khoảng 27 năm. Sau khi nghỉ hưu, tôi đã tiến hành giảng dạy các khóa học lập trình SW đại cương tại các trường đại học, cũng như tại các trường nghề và cơ quan nhà nước. Hiện tại, tôi vẫn đang giảng dạy khóa học Internet vạn vật (IoT) tại một trường đào tạo nghề.

Tôi muốn ghi hình bài giảng với nội dung như dưới đây và chia sẻ nó.

1. Khóa học Thống kê R Cơ bản/Nâng cao

2. Kỹ thuật công nghệ IoT vạn vật - Bộ phận thu thập dữ liệu cảm biến Arduino

3.Kỹ thuật Raspberry Pi

4. Khóa học cơ bản/nâng cao về ứng dụng AI (Hiểu thuật toán cơ bản và cách sử dụng công cụ)

5.Kỹ thuật triển khai nền tảng mang tính hệ thống để cấu hình trang trại thông minh (Smart Farm)

6.Kỹ thuật Tableau và PowerBI, các công cụ trực quan hóa dữ liệu

7.Kỹ thuật và phương pháp 6 Sigma trong thực tế công việc

8. Xây dựng hệ sinh thái Hadoop phân tích dữ liệu lớn

Thêm

Chương trình giảng dạy

Tất cả

4 bài giảng ∙ (1giờ 22phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Chưa có đủ đánh giá.
Hãy trở thành tác giả của một đánh giá giúp mọi người!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!

Ưu đãi có thời hạn, kết thúc sau 8 ngày ngày

3.380 ₫

69%

1.849.226 ₫