Inflearn brand logo image
Inflearn brand logo image
Inflearn brand logo image
BEST
Data Science

/

Data Engineering

Khóa học Kỹ thuật dữ liệu (1): Cài đặt trực tiếp Big Data Hadoop

Những sinh viên muốn tìm hiểu Hadoop và dữ liệu lớn sẽ ăn mừng những tiến bộ đáng kinh ngạc mà họ đã đạt được khi trải nghiệm thế giới dữ liệu lớn thông qua khóa học này!

(4.6) 36 đánh giá

562 học viên

  • hadoop3bigdata
hadoop
하둡
빅데이터
실무로배우는빅데이터기술
맵리듀스
Big Data
Hadoop
Data Engineering
Java
mapreduce

Đánh giá từ những học viên đầu tiên

Dịch cái này sang tiếng Việt

  • Trải nghiệm công nghệ dữ liệu lớn trong cuộc sống hàng ngày

  • Xử lý dữ liệu lớn với Hadoop

  • Tìm hiểu công nghệ xử lý phân tán để xử lý dữ liệu lớn với Hadoop

  • Xử lý dữ liệu lớn của Hadoop bằng ngôn ngữ Java

  • Tìm hiểu các kỹ thuật để khắc phục những hạn chế của việc xử lý dữ liệu quan hệ với Hadoop

  • Tìm hiểu các dự án và giao diện khác nhau của Hadoop

Đây là thời đại của dữ liệu lớn! 👨‍💻
Trở thành chuyên gia với Hadoop.

Trung tâm của khoa học dữ liệu,
Hadoop đang là xu hướng!

Nhiều tập đoàn CNTT lớn, các dịch vụ truyền thông xã hội và nhiều công ty khác đang cạnh tranh để sử dụng Hadoop (Apache Hadoop) cho việc phân tích và xử lý dữ liệu lớn. Hadoop là một nền tảng dựa trên Java được thiết kế để xử lý lượng dữ liệu khổng lồ với chi phí thấp, cho phép lưu trữ và xử lý phân tán các tập dữ liệu lớn. Nhưng điều gì sẽ xảy ra nếu bạn có thể đạt đến trình độ chuyên gia dữ liệu lớn thông qua Hadoop?

Thông qua phân tích dữ liệu, các công ty sẽ có thể tiên phong trong các thị trường mới, tạo ra giá trị độc đáo và mang đến cho người tiêu dùng mới cảm giác thích thú khi được tiếp cận thông tin thiết yếu theo thời gian thực. Dữ liệu lớn cũng là một kỹ năng quan trọng đối với các doanh nghiệp vừa và nhỏ, vì vậy đây là tin đáng mừng cho những ai đang tìm kiếm việc làm hoặc thay đổi nghề nghiệp trong lĩnh vực dữ liệu lớn .

BigData với Hadoop

Google, Yahoo, Facebook, IBM, Instagram, Twitter, v.v.
Nhiều công ty đang sử dụng nó để phân tích dữ liệu.
Thông qua Hadoop, một giải pháp dữ liệu lớn tiêu biểu
Hãy xây dựng một cơ sở hạ tầng hệ thống phân tán dữ liệu lớn .

Khóa học này bắt đầu bằng việc tìm hiểu thuật ngữ dữ liệu lớn và sau đó cung cấp trải nghiệm gián tiếp về cách xử lý dữ liệu lớn bằng phần mềm nguồn mở Hadoop . Thông qua khóa học này, sinh viên sẽ đồng thời trải nghiệm thế giới công nghệ dữ liệu lớn và Cuộc cách mạng Công nghiệp lần thứ tư.

Hadoop là gì?

  • Hadoop là phần mềm mã nguồn mở mà bất kỳ ai cũng có thể sử dụng miễn phí.
    Trong bài giảng này, chúng ta sẽ tìm hiểu về dữ liệu lớn bằng Hadoop phiên bản 3.2.1 .

Hiểu về dữ liệu lớn
Cách sử dụng Hadoop
Được ngay.

Dữ liệu lớn
Về thuật ngữ
Hiểu biết thiết yếu
Hadoop của
Trong khái niệm và sử dụng
Giới thiệu về Hàn Quốc
Thông qua Hadoop
Xử lý dữ liệu lớn
Hướng dẫn học tập

Tôi giới thiệu điều này tới những người này!

Tất nhiên, những người không phù hợp với danh mục này cũng được chào đón. (Người mới bắt đầu được chào đón gấp đôi ✌)

Việc làm/Thay đổi công việc
CNTT tương lai đang được xem xét
Những người khao khát theo đuổi ngành khoa học dữ liệu
Thông qua Java/Python
Tôi muốn xử lý dữ liệu lớn
Những người làm điều đó
Với sự quan tâm và tò mò
Về dữ liệu lớn
Bất cứ ai muốn trải nghiệm nó
Phiên bản Hadoop 3.x
Môi trường dữ liệu, v.v.
Nhân viên văn phòng muốn trải nghiệm

Trước khi tham gia lớp học, vui lòng kiểm tra lại kiến thức của bạn!

  • Kiến thức tiên quyết là kiến thức cơ bản về ngôn ngữ lập trình Java , kiến thức về dữ liệu lớnthuật ngữ liên quan đến máy ảo/bộ dữ liệu và hiểu biết cơ bản về Linux Ubuntu .

Nội dung sau đây
Tôi đang học.

1. Hiểu các thách thức về công nghệ ảo hóa và hệ điều hành khách

Chúng ta sẽ tìm hiểu công nghệ ảo hóa, một lợi thế cho việc hợp nhất máy chủ, và cách cô lập nhiều máy chủ với một hệ điều hành duy nhất thông qua ảo hóa cấp hệ điều hành. Bất kỳ ai cũng có thể đảm nhận thử thách tạo và vận hành một số lượng lớn máy chủ bằng Ubuntu, một giải pháp mã nguồn mở hỗ trợ ảo hóa Linux. Hơn nữa, chúng ta sẽ có được kiến thức về hệ điều hành khách và tích lũy kinh nghiệm kỹ thuật sâu rộng trong việc phân phối dữ liệu lớn trên nhiều máy chủ. Sử dụng ảo hóa máy chủ, bạn có thể trải nghiệm nhiều hệ điều hành chạy trên một máy chủ vật lý hoặc hệ điều hành duy nhất trong một máy ảo hiệu suất cao.

  • Tìm hiểu về định nghĩa của Dữ liệu lớn và các ứng dụng thực tế của nó.
  • Hãy cùng tìm hiểu thuật ngữ liên quan đến Hadoop, phần mềm xử lý dữ liệu được các doanh nghiệp ưa chuộng.
Kích thước dữ liệu
Bối cảnh: Dữ liệu lớn

2. Cách cài đặt Hadoop trên Ubuntu 20.04 LTS và sử dụng lệnh

Chúng tôi sẽ đề cập đến những kiến thức cơ bản về cách sử dụng các công cụ Linux CLI (Giao diện Dòng lệnh) mà các nhà phát triển front-end thường gặp khi phát triển ứng dụng web, sau đó chuyển đổi liền mạch sang Linux terminal cho Hadoop. Hơn nữa, chúng tôi sẽ đề cập đến những kiến thức cơ bản về sử dụng Ubuntu trong môi trường GUI không phải Windows, vượt ra ngoài phạm vi hiểu biết cơ bản về các hệ thống Linux như tệp cấu hình shell và hướng đến trình độ trung cấp.

  • Hãy cùng cài đặt và thiết lập Linux (Ubuntu 20.04 LTS) dưới dạng máy ảo trên máy tính xách tay chạy Windows 10.
  • Cài đặt Hadoop phiên bản 3.2.1 trên máy ảo Linux.
Kiến trúc Hadoop 2.x
Hadoop 2.x so với 3.x

3. Hướng dẫn định hướng mới nhất của Hadoop 3.2.1 & Hiểu về cấu trúc kiến trúc cốt lõi

Điểm khởi đầu cho việc xử lý dữ liệu lớn trên dữ liệu phi cấu trúc là tìm hiểu Hệ thống Tệp Phân tán Hadoop (HDFS), một mô hình hệ thống tệp của Google, MapReduce và YARN để mở rộng cụm và quản lý tài nguyên. Chúng ta sẽ lần lượt xem xét cấu trúc kiến trúc của Hadoop phiên bản 1, 2 và 3, cung cấp cho sinh viên cái nhìn trực quan về lịch sử công nghệ Hadoop.

  • Hiểu và tích hợp với Hệ thống tệp phân tán Hadoop (HDFS).
  • Hiểu các nguyên tắc của khung Map/Reduce và phân tích dữ liệu dựa trên nguyên tắc đó.
Kiến trúc HDFS
Các thành phần cốt lõi của YARN

4. Hướng dẫn vận hành HDFS Shell và xây dựng ứng dụng MapReduce bằng Java/Python

Mặc dù các kỹ thuật xử lý dữ liệu có thể khác nhau, nền tảng của phân tích dữ liệu lớn nằm ở việc xây dựng các ứng dụng MapReduce. Từ một ứng dụng MapReduce đếm từ cơ bản bằng Python đến một ứng dụng COVID-19 được xây dựng bằng Java dựa trên Eclipse, việc xây dựng nhiều ứng dụng MapReduce dữ liệu lớn không còn là một lựa chọn nữa; đó là một bước tiến cần thiết.

  • Hãy kết nối Hadoop với Java và triển khai một ứng dụng.
  • Hãy kết nối Hadoop với Python và triển khai một ứng dụng.
Ứng dụng Map/Reduce WordCount của Python
Ứng dụng Java Map/Reduce WordCount

Câu hỏi dự kiến Hỏi & Đáp!

H. Dữ liệu lớn là gì? Có cần thiết phải định nghĩa dữ liệu lớn khi sử dụng Hadoop không?

Vâng, tất nhiên, khi làm việc với Hadoop, bạn cần có định nghĩa ngắn gọn và hiểu biết về dữ liệu lớn. Tất nhiên, điều này không đòi hỏi sự hiểu biết đầy đủ và chuyên sâu. Tuy nhiên, nó đòi hỏi một mức độ hiểu biết cần thiết để làm việc với Hadoop.

Dữ liệu lớn liên quan đến việc xử lý các tập dữ liệu cực lớn bằng công cụ Hadoop. Các tập dữ liệu này đóng vai trò là nền tảng để phân tích nhiều mô hình và xu hướng khác nhau trên nhiều doanh nghiệp. Chúng liên quan chặt chẽ đến hành vi xã hội, mô hình của con người và việc tạo ra giá trị thông qua tương tác.

Nguồn hình ảnh: TechTarget (Truy cập bài viết gốc)

H. Hadoop là gì? Các thành phần của nó là gì? Hadoop stack là gì?

Dữ liệu từ các trang mạng xã hội quy mô lớn, từ terabyte đến petabyte (Zettabyte) Hadoop đang hỗ trợ sứ mệnh này. Hadoop Stack là một nền tảng mã nguồn mở để xử lý dữ liệu lớn.

Nói một cách đơn giản, "Hadoop" được gọi là "ngăn xếp Hadoop". Hadoop và ngăn xếp Hadoop giúp bạn xây dựng các cụm bằng phần cứng phổ thông, giá rẻ và xử lý quy mô lớn trong các cụm máy chủ khổng lồ này. Ngăn xếp Hadoop, còn được gọi là "xử lý hàng loạt đơn giản", là một "nền tảng điện toán phân tán" dựa trên Java. Nó cho phép người dùng xử lý hàng loạt dữ liệu tùy ý, định kỳ, phân phối dữ liệu theo định dạng mong muốn để tạo ra kết quả.

H. Có cần kiến thức lập trình không?

Ngay cả khi bạn không có kiến thức lập trình hay kinh nghiệm viết code, cũng không sao cả. Tôi giảng dạy với sự hiểu biết sâu sắc về Java và Python, như thể bạn đang trải nghiệm chúng lần đầu tiên. Mặc dù tài liệu bài giảng bằng tiếng Anh, tôi sẽ giảng bằng tiếng Hàn để đảm bảo bạn có thể theo dõi mà không gặp bất kỳ khó khăn nào. Tuy đôi khi tôi có giải thích bằng tiếng Anh, nhưng tôi tin rằng bất kỳ ai có trình độ trung học phổ thông đều có thể hiểu được. (Giống như tôi đã đạt được ước mơ của mình, ngay cả khi trình độ tiếng Anh của tôi còn hạn chế.)

H. Dữ liệu lớn có liên quan gì đến Hadoop?

Khóa học này tự nhiên bao gồm Hadoop. Không chỉ giới hạn ở các hệ quản trị cơ sở dữ liệu quan hệ (RDMS) đơn giản như Oracle, MSSQL hoặc MySQL, khóa học còn hướng đến việc giải quyết các yêu cầu kinh doanh thiết yếu, bắt đầu từ xử lý quy mô lớn, tốc độ xử lý dữ liệu và hiệu quả chi phí. Cụ thể, Hadoop không chỉ xử lý dữ liệu có cấu trúc—dữ liệu quan hệ được xử lý bởi các hệ quản trị cơ sở dữ liệu quan hệ dạng hàng và cột—mà còn cả dữ liệu phi cấu trúc, chẳng hạn như hình ảnh, âm thanh và các tệp xử lý văn bản.

Khi xử lý dữ liệu cấu trúc dịch vụ, chúng ta đang nói đến dữ liệu liên quan đến giao tiếp và tích hợp dữ liệu với máy chủ web, chẳng hạn như email, CSV, XML và JSON. HTML, trang web và cơ sở dữ liệu NoSQL cũng được bao gồm. Tất nhiên, việc tích lũy các tập dữ liệu được sử dụng để xử lý việc chuyển giao tài liệu kinh doanh từ máy tính sang máy tính, được gọi là EDI, cũng thuộc loại này.

Nguồn hình ảnh: Blog MonkeyLearn (Truy cập bài viết gốc)

H. Nội dung được đề cập ở mức độ nào?

Khóa học này sẽ hướng dẫn người dùng cài đặt Hadoop 3.2.1 trên Ubuntu 20.04 LTS. Ngay cả khi bạn chưa từng có kinh nghiệm về Unix hoặc Linux, bạn vẫn sẽ được học các kỹ thuật cài đặt và hệ điều hành Linux. Ngoài những kiến thức cơ bản về CLI và ngôn ngữ người dùng của Hadoop, khóa học này cũng sẽ giúp bạn làm quen với các công nghệ DFS và MapReduce độc quyền của Google. Kiến thức của bạn về YARN sẽ chỉ giới hạn ở lý thuyết cơ bản. Chúng tôi dự kiến sẽ cung cấp một bài học chuyên sâu hơn về YARN khi bạn cài đặt một cụm trong khóa học Hadoop 3.3.0 trung cấp.

H. Có lý do gì khiến bạn sử dụng Ubuntu 20.04 LTS làm môi trường thực hành không?

Ubuntu hoàn toàn miễn phí, và chương trình LTS (Dịch vụ Dài hạn) của nó hướng đến các công ty đang tìm kiếm hỗ trợ dịch vụ dài hạn. Bằng cách cài đặt Hadoop trên Linux, bạn có thể tự nhiên xây dựng hệ điều hành và môi trường phát triển phù hợp với nhu cầu kinh doanh của mình. Bằng cách hỗ trợ sử dụng Eclipse và Intelligent trong cùng một môi trường, bạn có thể góp phần hiện thực hóa giấc mơ khoa học dữ liệu, vốn liên quan đến dữ liệu lớn, ngay bây giờ.

Ubuntu là hệ điều hành Windows cho phép cài đặt và vận hành.
Môi trường tương tự, tức là GUI (Giao diện người dùng đồ họa)
Chúng tôi đang giúp người dùng thông qua môi trường.

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Một sinh viên muốn tìm hiểu những kiến ​​thức cơ bản về dữ liệu lớn từ đầu

  • Những người khao khát các nguyên tắc và ứng dụng dữ liệu lớn

  • Những người muốn tìm hiểu Hadoop để xử lý dữ liệu lớn của công ty

  • Người có kiến ​​thức cơ bản về Java

Cần biết trước khi bắt đầu?

  • Khái niệm về dữ liệu lớn

  • máy ảo

  • Thuật ngữ tập dữ liệu

  • Tìm hiểu Linux (Ubuntu)

  • java 15

Xin chào
Đây là

583

Học viên

37

Đánh giá

69

Trả lời

4.6

Xếp hạng

2

Các khóa học

네오아베뉴 대표 빌리 리 입니다.

2022년 9월 한국에 가족 모두 귀국한 뒤 현대자동차 빅데이터 프로젝트에 TA 컨설팅 (2022.09 -11월까지)하였고, 에자일 PM과 빅데이터 C-ITS 시스템 구축으로 하둡 에코시스템 및 머신러닝 딥러닝 리드하여 프로젝트 관리자 (PMO)역할을 하였습니다. 이후 Azure Data Factory & Azure Databricks 을 가지고 데이터 관리 기술을 AIA 생명 보험 이노베이션 데이터 플랫폼 팀에서 근무하면서 데이터 과학자로 깊은 탐구와 열정을 불살랐습니다.

2012년에서 2020년 까지 센터니얼 칼리지 Software Eng. Technician 졸업한 열공생이자 한국에서는 9년의 IT 경력 소유자로 금융권 (재무, 금융 프로젝트 및 빅데이터 관련 ) 에 다수 근무했습니다.

1999년 필리핀 (Dasmarinas) 지역에서 P.T.S. 네트워크 엔지니어링 자원 봉사자로 1년 근무하면서 글로벌 IT 세계와 네트워크 지식을 쌓으며 이후 2000년 한국으로 돌아와 K.M.C.에서 Clarion 4GL 언어로 Warehouse Inventory Control and Management 그리고 PIS Operational Test PCS C/C++ 개발했었습니다.

2001년 LG-SOFT SCHOOL 자바 전문가 과정 이수 후 CNMTechnologies 에서 e-CRM/e-SFA R&D 연구 및 개발 2년 정도 (한국산업은행/대정정부청사/영진제약) 다양한 프로젝트를 섭렵하였습니다.

2004년부터 2012년 캐나다로 올 때까지 SKT/SK C&C (IMOS), SC제일은행(TBC), 프로덴션 생명(PFMS), 교보생명 AXA Kyobo Life Insurance Account Management, Kook-min Bank 국민은행 Financial Management Reconstruction NGM외 다수 프로젝트에 참여 개발 및 리드하였습니다.

 

2012년 연말에 캐나다에 거주하면서 세 아이의 아빠이자 Scrum Master로서 에자일 개발 방식을 채택하여 핸디맨 어플/이커머스 어플/프로덱트 개발/레시피 어플 개발한 미주 캐나다 지역의 실경험자입니다.

Chương trình giảng dạy

Tất cả

85 bài giảng ∙ (6giờ 39phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

36 đánh giá

4.6

36 đánh giá

  • hadoop3bigdata님의 프로필 이미지
    hadoop3bigdata

    Đánh giá 3

    Đánh giá trung bình 5.0

    5

    93% đã tham gia

    This course was created with the intention of training you to become a Hadoop expert who handles big data. Rather than using a comprehensive on-premise distribution software application (OPD) like Cloudera, we will move you to the step of installing Hadoop from scratch, extracting, moving, and loading datasets. Hadoop, which started from version 1.x, has now become a very heavy platform with many features added up to version 3.3, but I hope that this course will be filled with the desire to train you to become a big data expert by handling many tools.

    • kentucky8612311057님의 프로필 이미지
      kentucky8612311057

      Đánh giá 4

      Đánh giá trung bình 5.0

      5

      100% đã tham gia

      Pros: You can learn the basics of Hadoop MapReduce. It seems to be the only Hadoop lecture in Korean. Disappointing points: I was disappointed that there was no content I was curious about, such as extracting with one common key using two mappers, when using two keys, how to set the comparator directly, and so on. Cons: The instructor's Korean pronunciation is not clear, and the background music is loud, so I had to listen to what he was saying several times. --------------------------------------- I will change the rating to 5 stars after seeing the teacher's answer.

      • hadoop3bigdata
        Giảng viên

        Thank you for your kind and detailed evaluation. The theory of Hadoop is so vast that I can say that I can't cover everything. It's even harder to understand the entire Hadoop by listening to my lecture. I removed the background music and re-recorded it with a clear voice, so I would appreciate it if you could take the lecture again. There are also updated lectures, so I hope you will listen to them in quiet times and become a Hadoop expert.

    • seaking79727님의 프로필 이미지
      seaking79727

      Đánh giá 38

      Đánh giá trung bình 4.7

      5

      59% đã tham gia

      It's good for Hadoop beginners. It seems like a good idea to learn it first before reading the book.

      • hadoop3bigdata
        Giảng viên

        Yes, thank you for your good review. It is not easy for beginners who are new to Hadoop to follow the books currently available on the market. In that sense, my lecture emphasized running Hadoop, HDFS, and YARN applications on a single node while learning before purchasing the book, as Taekyung Kim said in his review. If it is effective, thank you. I will see you again with a better lecture. I hope you will grow into a Hadoop expert.

    • dlgnsxo1239897님의 프로필 이미지
      dlgnsxo1239897

      Đánh giá 56

      Đánh giá trung bình 5.0

      5

      100% đã tham gia

      The Hadoop lecture was really good! I wish there was a Spark lecture too. Thank you!

      • hadoop3bigdata
        Giảng viên

        I hope this lecture will be an opportunity to approach Hadoop in a more friendly way. I also hope that the Spark lecture will be delivered to you. I support you from Toronto to become a Hadoop expert.

    • jason님의 프로필 이미지
      jason

      Đánh giá 28

      Đánh giá trung bình 5.0

      5

      31% đã tham gia

      Instructor, thank you so much for providing such a high-quality lecture at such a low price! I am a new data engineer, and I was considering a thick book while thinking about how to start with big data frameworks such as Hadoop and Spark, and I came across this lecture that I had purchased in the past. I have never used Java before, so it will take some time to understand, but I will complete it well! You said you are planning a Spark lecture at the end of this year or early next year, so I am really, really looking forward to it! Please, I hope that this lecture can be explained as easily as this one based on pyspark!

      1.164.107 ₫

      Khóa học khác của hadoop3bigdata

      Hãy khám phá các khóa học khác của giảng viên!

      Khóa học tương tự

      Khám phá các khóa học khác trong cùng lĩnh vực!