Gói xây dựng cụm Big Data; Lộ trình hướng tới thành công

Đây là khóa học tập trung vào thực hành (codelab), nơi bạn sẽ trực tiếp xây dựng các cụm hệ thống dữ liệu lớn hoặc hệ thống xử lý phân tán (HDFS, Zookeeper, Spark, Zeppelin) đảm bảo tính sẵn sàng cao (High Availability).

(4.8) 21 đánh giá

120 học viên

Độ khó Cơ bản

Thời gian Không giới hạn

Big Data
Big Data
Apache Spark
Apache Spark
Hadoop
Hadoop
Data Engineering
Data Engineering
cluster
cluster
Big Data
Big Data
Apache Spark
Apache Spark
Hadoop
Hadoop
Data Engineering
Data Engineering
cluster
cluster

Đánh giá từ những học viên đầu tiên

4.8

5.0

귤껍데기

44% đã tham gia

Tôi nghĩ đây là một khóa học có nội dung phong phú và phù hợp để bắt đầu. Cảm ơn bạn đã chuẩn bị khóa học này.

5.0

one831

19% đã tham gia

Tôi là sinh viên kỹ thuật máy tính sắp tốt nghiệp và mong muốn trở thành kỹ sư dữ liệu. Trong khi tạo danh mục đầu tư liên quan đến công việc, tôi có rất nhiều lo lắng về cách định cấu hình quy trình và kiến ​​trúc để xử lý dữ liệu lớn cũng như cách thiết lập môi trường AWS để sử dụng nó một cách hiệu quả với chi phí thấp nhất có thể. bài giảng này và đạt được bí quyết. Đặc biệt, tôi rất vui vì mình đã thu được nhiều kiến ​​thức về các framework khác nhau xử lý dữ liệu lớn và nhận được nguồn cảm hứng về nơi tôi có thể nghiên cứu sâu hơn trong tương lai. Sau cơn hạn hán, ta gặp cơn mưa ngọt ngào. Tôi giới thiệu khóa học này cho những sinh viên quan tâm đến lĩnh vực này như tôi.

5.0

권영미

100% đã tham gia

Cảm ơn!

Bạn sẽ nhận được điều này sau khi học.

  • Thiết lập Cụm Dữ liệu lớn (Big Data Cluster)

  • Hệ thống Xử lý HOẶC Tệp Phân tán

  • Tính sẵn sàng cao

  • Hadoop

  • HDFS

  • Apache Spark

  • Apache Zeppelin

  • Apache Zookeeper

  • AWS (EC2, AMI, Security Group)

Thực tế xây dựng cụm phân tán dữ liệu lớn thông qua Codelab,
Gói xây dựng cụm dữ liệu lớn 
👨🏻‍🎓

Xin chào, tôi là J.PHIL 🍏

Một học kỳ đã trôi qua và nhân cơ hội tốt này, trong mùa giải lần này, tôi dự định sẽ tiến hành bài giảng 'Gói xây dựng cụm Big Data' nơi các bạn sẽ được trực tiếp xây dựng các cụm phân tán Big Data 📚

Nhờ sự ủng hộ của các bạn, dựa trên cảm hứng từ lớp học 'Master Big Data Pipeline' trước đó, sau khi trăn trở liệu 'có bài giảng nào tuy hơi thử thách nhưng lại mang ý nghĩa theo một hướng khác không?', tôi đã dành hết tâm huyết để tạo ra bài giảng này.

Từ khóa: Big Data Cluster, Distributed System, High Availability, Hadoop, HDFS, Apache Spark, Zookeeper, Zeppelin, AWS EC2 & AMI

 

Tại sao chúng ta nên nghe bài giảng này 🙇🏻

Trong suốt hơn 10 năm qua, với sự phát triển vượt bậc của công nghệ, nhiều nền tảng và dịch vụ khác nhau đã mọc lên như nấm, thông qua đó vô số dữ liệu phát sinh từ cuộc sống hàng ngày được khai thác và phân tích, giúp chúng ta tận hưởng một cuộc sống chất lượng cao.

Như hình 1 bên dưới, không chỉ các tập đoàn lớn trong nước mà cả các doanh nghiệp khổng lồ trên thế giới đều công khai nhấn mạnh tầm quan trọng của Lưu trữ Dữ liệu lớn (Big Data Storage) và Xử lý Dữ liệu lớn (Big Data Processing), đồng thời yêu cầu nhiều kỹ sư phải có bộ kỹ năng phân tích và xây dựng tương tự.

 
001.png

<F1. Vô số doanh nghiệp trên toàn thế giới đang tập trung vào xử lý dữ liệu>

 
002.png

<F2. Xây dựng cụm Big Data trong nhiều lĩnh vực>

Tuy nhiên, cho đến khi chúng ta thực sự bước chân vào NGÀNH CÔNG NGHIỆP đó, việc có được kinh nghiệm trực tiếp xây dựng hoặc vận hành CỤM DỮ LIỆU LỚN (BIG DATA CLUSTER) trước đó là điều không hề dễ dàng. Vì vậy, khi cơ hội tạo ra những giá trị ý nghĩa thực sự đến, chúng ta có thể sẽ phải nhận những kết quả đáng tiếc do thiếu hụt kinh nghiệm trong lĩnh vực này.

Tôi cũng vậy, thời còn là nghiên cứu viên, khi viết luận văn cho 'DATA TOPTIER CONFERENCE', tôi đã phải tự mình xây dựng cụm dữ liệu lớn (Big Data Cluster) với 50 máy. Tôi đã phải chịu đựng áp lực lớn khi phải làm gương cho các thành viên cũng như sự căng thẳng về chi phí, và đã dành trọn vẹn suốt nửa tháng thức trắng đêm chỉ để tập trung vào việc xây dựng cụm máy chủ đó.

Tất nhiên, những kinh nghiệm quý báu đó đã giúp tôi học hỏi được nhiều điều và trở thành nguồn dưỡng chất tốt để tiến về phía trước, nhưng tôi không muốn các bạn sử dụng thời gian một cách kém hiệu quả như vậy. Nói cách khác, tôi đã thực hiện bài giảng này với mong muốn các bạn không chỉ dành khoảng 200 giờ quý báu của mình vào việc xây dựng cụm máy chủ, mà có thể tập trung một cách hiệu quả vào việc thực hiện các thí nghiệm hoặc phân tích dữ liệu khách hàng trên cụm máy chủ đó 📝

Trên tất cả, tôi hy vọng rằng sau khi các bạn nghe bài giảng này và tích lũy được kinh nghiệm xây dựng cụm (cluster), nó sẽ giúp ích rất nhiều cho các bạn khi trực tiếp xây dựng các cụm dữ liệu lớn trong công việc thực tế hoặc tại cao học giống như tôi, và bài giảng này đã được mở không giới hạn nên các bạn hãy tham khảo nhé 💓

 

Chúng ta sẽ học những gì vậy 📚

📝

Kinh nghiệm đổ mồ hôi công sức viết luận văn cho Hội nghị Thượng đỉnh về Dữ liệu (Data Top-Tier Conference)

👨🏻‍💼

Kinh nghiệm xây dựng và phân tích hệ thống Big Data quý báu có được từ thực tế công việc

🧑🏻‍🏫

Kinh nghiệm đào tạo những người học trò giỏi tại trường đại học trong một thời gian dài

Dựa trên những kinh nghiệm quý báu này, để giúp các bạn có thể tạo ra ⚔️ vũ khí mạnh mẽ trong lĩnh vực tương ứng

1. Trên hệ thống tệp phân tán HDFS đảm bảo tính sẵn sàng cao (Tham khảo ví dụ Daemon bên dưới)

2. Kiệt tác của hệ thống Big Data, Apache Spark và Notebook chuyên dụng cho Big Data Zeppelin

Chúng ta sẽ trực tiếp xây dựng gói cluster thông qua lý thuyết và các bài thực hành code (codelab) vững chắc.

 

image.png

Cấu hình các daemon của hệ thống tệp có tính sẵn sàng cao ở trên có vẻ hơi khó đối với bạn phải không? Thông thường, các sơ đồ kiến trúc và cấu hình hệ thống khi mới nhìn thấy lần đầu luôn gây ra cảm giác áp lực.

Tuy nhiên

Dựa trên những phản hồi quý báu từ những người học tuyệt vời trong suốt 6 năm qua, cùng với kinh nghiệm ra mắt 2 bài giảng trước đó trên Inflearn, tôi đã biên soạn nội dung chất lượng cao, dễ hiểu nhất có thể và phù hợp với trình độ của học viên từng bước một, vì vậy bạn có thể thoải mái theo dõi mà không cần quá áp lực.

đặc biệt cảm ơn những học viên thân yêu của tôi 👨🏻‍🎓

 

Hãy cho tôi biết về lộ trình học tập 🧑🏻‍🏫🧑🏻‍🏫

Chúng tôi không bắt đầu ngay với CODELAB mà sẽ học từ lý thuyết cần thiết khi xây dựng cụm máy chủ có tính sẵn sàng cao. Sau đó, đối với những học viên chưa quen với môi trường AWS hoặc Linux, chúng tôi sẽ cung cấp video hướng dẫn và kiến thức nền tảng trước khi chính thức tiến hành các bài thực hành code chuyên sâu 😎

curri-1.jpg

 

Bất kỳ ai quan tâm đến Big Data HOẶC Xử lý phân tán đều có thể tham gia khóa học 🧑🏻‍🎓

 

 

Môi trường thực hành như thế nào? 💻

Bạn hoàn toàn có thể theo kịp lớp học ngay cả khi chuẩn bị một môi trường đơn giản như dưới đây.

  • OS: Ubuntu 20.04 LTS

  • Trình soạn thảo: Vim (tùy theo sở thích của bạn)

  • Thông số kỹ thuật máy (Machine)

    • AWS EC2 / c5.large (2 Core 4GB) 4 hoặc 5 chiếc

Vui lòng xem kỹ Chương trình học (Course Curriculum) để biết thêm chi tiết 😊

 

Giới thiệu về J.PHIL 👨‍👨‍👧‍👦

image.png

 

 

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Học viên muốn trực tiếp trải nghiệm việc xây dựng cụm hệ thống xử lý dữ liệu lớn (Big Data).

  • Sinh viên quan tâm và mong muốn làm việc trong lĩnh vực phân tích dữ liệu và hệ thống

  • Nhà phát triển muốn trực tiếp trải nghiệm thực hành cụm máy chủ có độ khả dụng cao (High Availability Cluster)

  • Sinh viên mới tốt nghiệp đang tìm việc muốn tạo thế mạnh trong lĩnh vực phân tích và xây dựng dữ liệu lớn (Big Data)

Cần biết trước khi bắt đầu?

  • Lập trình Python cơ bản

  • Kiến thức cơ bản về lệnh Linux

  • Kiến thức cơ bản về cơ sở dữ liệu

Xin chào
Đây là jphil

472

Học viên

42

Đánh giá

50

Trả lời

4.9

Xếp hạng

2

Các khóa học

Xin chào, tôi là J.PHIL 🧑🏻‍🎓

Với bài giảng đầu tiên, tôi đã khai giảng khóa học [ Dành cho những người mới bắt đầu quan tâm đến việc xây dựng và phân tích hệ thống Big Data ] mang tên
"Mastering Big Data Processing: Tools and Techniques for Success".

Chi tiết về 'Khóa học và Hồ sơ' đã được viết kỹ trong trang chi tiết khóa học, vui lòng tham khảo nhé 🙏🏻

Thêm

Chương trình giảng dạy

Tất cả

36 bài giảng ∙ (4giờ 51phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

21 đánh giá

4.8

21 đánh giá

  • jasonking님의 프로필 이미지
    jasonking

    Đánh giá 2

    Đánh giá trung bình 5.0

    5

    36% đã tham gia

    Tôi đã nghe bài giảng này sau khi tham gia một bài giảng về quy trình trước đó, và tôi rất vui vì nó đọng lại trong đầu tôi ~ Cảm ơn bài giảng cô đọng và thiết thực. Tôi nghĩ tôi sẽ học xong bài giảng này một cách nhanh chóng, nhưng tôi rất mong được xem liệu còn có những bài giảng khác nữa không.

    • Phải mất 2 ngày. Vì là dạng lab nên tiến triển hơi nhanh, nhưng rất khó để đào sâu vì namenode chưa khởi động (chắc do mình nhầm ở đâu đó). Sau này, tôi phát hiện ra rằng phần hướng dẫn xử lý sự cố đã tóm tắt kịch bản quy trình khởi động và phần xem nhật ký. Nếu tôi cũng nhìn thấy điều này, tôi đã có thể sửa chữa lỗi lầm của mình sớm hơn. Nếu bạn đang trải qua quá trình này, tôi nghĩ sẽ tốt hơn nếu bạn đọc kỹ và làm theo thay vì cố gắng sao chép mọi thứ. Người hướng dẫn. Cảm ơn bạn vì mỗi bài giảng hay ~

    • jphil
      Giảng viên

      Xin chào Jason.King, Cảm ơn bạn đã tham dự bài giảng của tôi :) Đôi khi việc suy nghĩ và cố gắng khắc phục khi gặp lỗi hoặc gặp khó khăn khi tự chụp sẽ rất hữu ích, vì vậy tôi nghĩ trải nghiệm này sẽ giúp ích rất nhiều trong tương lai. Nếu bạn tự xây dựng một nguồn mở chính, bạn sẽ có thể xây dựng một cụm trong thời gian ngắn ngay cả khi các nguồn mở khác xuất hiện. Tương lai cũng sẽ chiến đấu

  • 귤껍데기님의 프로필 이미지
    귤껍데기

    Đánh giá 3

    Đánh giá trung bình 4.3

    5

    44% đã tham gia

    Tôi nghĩ đây là một khóa học có nội dung phong phú và phù hợp để bắt đầu. Cảm ơn bạn đã chuẩn bị khóa học này.

    • upgleman8112423674님의 프로필 이미지
      upgleman8112423674

      Đánh giá 4

      Đánh giá trung bình 5.0

      5

      31% đã tham gia

      Từ lý thuyết đến phòng thực hành mã, đây là khóa học tôi đặc biệt giới thiệu cho người mới bắt đầu!! Tôi khuyên bạn nên tham gia khóa học xây dựng cụm dữ liệu lớn cần thiết này!!

      • jphil
        Giảng viên

        Xin chào Yeonwoo Jung, Cảm ơn bạn đã đánh giá có giá trị của bạn. Nếu bạn có cơ hội, hãy đầu tư một hoặc hai ngày và thử thực hành AWS, tôi hy vọng bạn sẽ thấy kết quả tốt. CHÚC MỪNG NĂM MỚI :)

    • won831님의 프로필 이미지
      won831

      Đánh giá 1

      Đánh giá trung bình 5.0

      5

      19% đã tham gia

      Tôi là sinh viên kỹ thuật máy tính sắp tốt nghiệp và mong muốn trở thành kỹ sư dữ liệu. Trong khi tạo danh mục đầu tư liên quan đến công việc, tôi có rất nhiều lo lắng về cách định cấu hình quy trình và kiến ​​trúc để xử lý dữ liệu lớn cũng như cách thiết lập môi trường AWS để sử dụng nó một cách hiệu quả với chi phí thấp nhất có thể. bài giảng này và đạt được bí quyết. Đặc biệt, tôi rất vui vì mình đã thu được nhiều kiến ​​thức về các framework khác nhau xử lý dữ liệu lớn và nhận được nguồn cảm hứng về nơi tôi có thể nghiên cứu sâu hơn trong tương lai. Sau cơn hạn hán, ta gặp cơn mưa ngọt ngào. Tôi giới thiệu khóa học này cho những sinh viên quan tâm đến lĩnh vực này như tôi.

      • jphil
        Giảng viên

        Xin chào one831, Cảm ơn đánh giá có giá trị của bạn. Tôi hy vọng bạn có kết quả tốt trong tương lai.

    • youngmikwon님의 프로필 이미지
      youngmikwon

      Đánh giá 3

      Đánh giá trung bình 5.0

      5

      100% đã tham gia

      Cảm ơn!

      • jphil
        Giảng viên

        Xin chào Youngmi Kwon, Cảm ơn bạn đã đánh giá có giá trị của bạn! Chiến đấu!

    Khóa học tương tự

    Khám phá các khóa học khác trong cùng lĩnh vực!