Inflearn brand logo image
Inflearn brand logo image
Inflearn brand logo image
BEST
Data Science

/

Data Engineering

Data Engineering Course (1): ビッグデータ Hadoop を直接インストールする

Hadoopとビッグデータを学びたい学生は、このコースを通じてビッグデータの世界を体験する素晴らしい発展を祝います!

  • hadoop3bigdata
hadoop
하둡
빅데이터
실무로배우는빅데이터기술
맵리듀스
Big Data
Hadoop
Data Engineering
Java
mapreduce

学習した受講者のレビュー

こんなことが学べます

  • 日常のビッグデータ技術に触れる

  • Hadoopでビッグデータを扱う

  • Hadoopでビッグデータを扱う分散処理技術を学ぶ

  • Java言語を使用してHadoopビッグデータを扱う

  • リレーショナルデータ処理限界をHadoopに乗り越える技術を学ぶ

  • Hadoopのさまざまなプロジェクトとインターフェースを学ぶ

まさにビッグデータ時代! 👨‍💻
Hadoopで専門家になろう。

データサイエンスの中心、
大勢はハドゥプ!

複数のIT大企業、ソーシャルメディアサービスなどで、ビッグデータの分析と処理にHadoop(Apache Hadoop)を先取りして使用しています。 Hadoopは、大量のデータを少ないコストで処理できるように作られたJava言語ベースのフレームワークで、大規模なデータセットを分散保存して処理します。ところで、そのようなHadoopを通じてビッグデータの専門家レベルのクラスに上がることができたらどうでしょうか。

企業はデータ分析を通じて新しい市場を開拓し、希少な価値を与え、新しい消費者に必要な情報をリアルタイムで提供できる快感を与えることができるようになります。中小企業 またビッグデータは必ず取り扱うべき必須事項であるだけに、ビッグデータ関連職務で就職/転職を夢見る方には朗報ではありません。

BigData with Hadoop

Google、Yahoo、Facebook、IBM、Instagram、Twitterなど
複数の企業がデータ分析に使用している
代表的なビッグデータソリューション、Hadoopを通じて
ビッグデータ分散型システムインフラストラクチャを構築します。

このレッスンでは、ビッグデータの用語を理解し、オープンソフトウェアHadoopを介してビッグデータを扱うプロセスを間接的に体験します。この講義を通じて、受講生の皆さんはビッグデータテクノロジー(Big Data Technology)の世界、そして第4次革命の世界を同時に経験できるようになります。

Hadoopとは?

  • Hadoopは一般的なソフトウェアで、誰でも無料で利用できるオープンソースです。
    このレッスンでは、Hadoop 3.2.1バージョンを通じてビッグデータを扱います。

ビッグデータの理解から
Hadoopの使い方まで
一度にOK。

ビッグデータ
用語について
不可欠な理解
Hadoopの
概念と用途に
について
Hadoopによる
ビッグデータ処理
学習チュートリアル

こんな方におすすめです!

もちろん、ここに該当しない方も歓迎します。 (初心者は2倍に歓迎します✌)

就職/転職
検討する未来型IT
データサイエンス準備生
Java / Python経由
ビッグデータを扱おう
ご利用の方
興味と興味
ビッグデータについて
体験したい方
Hadoop 3.xバージョン
データ環境など
経験豊富な会社員

受講前、選手の知識をご確認ください!

  • プレーヤーの知識として、Javaプログラミング言語の基礎、ビッグデータ、および仮想マシン/データセットに関する用語の知識とLinux Ubuntuの基本的な理解が必要です。

次の内容
学習します。

1. 仮想化技術の課題とゲストオペレーティングシステムの理解

サーバー統合に有利な仮想化技術を学び、OSレベルの仮想化を介して1つのOSに複数のサーバーを分離する方法に基づいて学びます。 Linuxに適用できる仮想化方式であるオープンソースソリューションUbuntuを通じて、誰もが挑戦して大量のサーバーを製作運営することになるでしょう。さらに、ゲストオペレーティングシステムの知識はもちろん、大量のサーバーを通じてビッグデータを分散技術に変えることになり、広がる多量の技術経験を蓄積できるようになります。サーバー仮想化を使用して、1つの物理サーバー上またはオペレーティングシステムで非常に効率的な仮想マシンの難しいオペレーティングシステムを体験することができます。

  • ビッグデータの定義と実際の適用例について学びます。
  • 企業が好むデータ処理ソフトウェアであるHadoopに関する用語を理解してください。
データサイズ
The Landscape: ビッグデータ

2. Ubuntu 20.04 LTSの上にHadoopをインストールし、命令を操作する方法

フロントエンド(FrontEnd)開発者がWebアプリケーションを開発する際に自然に遭遇するLinux CLI(Command Line Interface)方式のツールを使用する基礎的な方法から、Hadoopを扱うLinuxターミナルを自然に学ぶ予定です。もちろん、非 Windows ベースの GUI 環境で原도のように Ubuntu を使用するための前提事項を学びながら、セルの設定ファイルなどの Linux システムの理解を超えて中級者方向に自然に導きます。

  • Windows 10ベースのノートブックに仮想マシンとしてLinux(Ubuntu 20.04 LTS)をインストールして設定します。
  • Linux仮想マシンの上にHadoop 3.2.1バージョンをインストールします。
Hadoop 2.x Architecture
Hadoop 2.x vs. 3.x

3. Hadoop 3.2.1最新の方向ガイドとコアアーキテクチャ構造について

非定型データ処理のためのビッグデータの始まりは、GoogleのファイルシステムのモデルであるHadoop分散ファイルシステム(HDFS)とMapReduce(MapReduce)、そしてYan(YARN)というクラスタ拡張とリソース管理の理解です。 Hadoop Version 1、2、3のアーキテクチャ構造について一つ一つ見て、Hadoop技術の歴史がどんなものか受講生の皆さんに絵を描きます。

  • Hadoop分散ファイルシステム(HDFS)を理解して連携してみてください。
  • マップリデュース(Map/Reduce) フレームワークの原理を理解し、これに基づいてデータを分析してみます。
HDFS Architecture
YARN Core Components

4. HDFSシェル操作ガイドとJava / PythonでMapReduceアプリケーションを作成する

データ操作に使われる技術は多様ですが、ビッグデータ分析の基礎はマップリデュースアプリケーション制作にあります。プログラミング言語Python(Python)で、基本的なWordCount MapReduceアプリケーションからEclipseベースのJava言語でCOVID-19アプリケーションを作成するまで、さまざまなビッグデータマップリデュースアプリケーションの作成は、選択を超えて必須に進むべき方向を提示します。

  • JavaでHadoopを連動し、アプリケーションを実装してみます。
  • PythonでHadoopを連携し、アプリケーションを実装してみます。
Python Map/Reduce WordCount Application
Java Map/Reduce WordCount Application

予想される質問Q&A!

Q. ビッグデータとは何ですか? Hadoopを使用するときは、その定義が必要ですか?

はい、もちろんHadoopを扱うときは必ずビッグデータの簡単な定義と理解を求めます。もちろん、完璧で深いレベルの熟知を必要とするほどではありません。ただ、Hadoopを扱う際に必ず必要な理解度を求める形でしょう。

ビッグデータはHadoopツールを備え、非常に大きなデータセットを扱います。このデータセットは、多数の企業が扱うさまざまなパターンやトレンドを特定するために分析する基礎データです。人間の社会的行動とパターン、そして相互作用の中で繰り広げられる人類の価値創造と関連が立っています。

画像ソース:TechTarget (オリジナルショートカット)

Q. Hadoopとは何ですか?コンポーネントは何で、Hadoopスタックは何ですか?

テラバイトを超えてペタ(Petta/Zettabyte)に至る大規模ソーシャルサイトのデータを 処理しなければならない使命をHadoopが助けています。 Hadoop Stackとは、このようなビッグデータを扱うオープンソースのフレームワーク方式です。

単に「Hadoop」は「Hadoop Stack」と呼ばれます。安価で日常的なコマディティハードウェアを使用してクラスタを構築し、その膨大なサーバーの集合体であるクラスタ内で大容量プロセスを処理するのを助けるのは、HadoopとHadoopスタックです。 Hadoopスタックは「単純なバッチプロセス」とも呼ばれ、Javaベースの「分散コンピューティングプラットフォーム」です。だから個人が望むだけのデータを周期別にバッチを回して処理しながら、データを所望の形に加工分散して結果値を算出するのです。

Q. プログラミングの知識が必要ですか?

プログラミングの知識やコードを書く経験がなくても大丈夫です。 JavaやPythonを初めて体験すると考えて教えるように、深い理解をもとに授業を進めます。講義に書かれた文書は英語で書かれていますが、従うことには支障がないように韓国語で講義します。たまに英語で説明をするのですが、高校レベルであれば解釈できないでしょうか? (私の低い英語力でも夢を叶えたようです。)

Q. Hadoopを扱うのにビッグデータはどのくらい関連がありますか?

この講義は当然ハドゥプを扱っています。単にRDMSというOracleやMSSQL、あるいはMYSQLを越えて大容量処理をはじめ、データ処理速度の問題、低コスト効果という企業の必須要素を創出したいと思います。特にソーシャルを扱わなければならない企業、つまりすぐに行と列に基づくデータRDMSで扱うリレーショナルデータを扱うストラクチャデータ(Structured data)だけでなく、画像、オーディオ、ワードプロセスファイルそのものを扱わなければならないアンストラクチャデータ(Unstructred data)などもハドゥが扱います。

サービスストラクチャーデータを扱うときは、Email、CSV、XML、およびJSONなどのWebサーバーとの通信とデータ連携に関するデータを言っています。 HTML、Web Sites、NoSQL Databasesもここに含まれています。もちろん、EDIというビジネス書類関連の計算移動させるコンピュータ対コンピュータ間の移動処理問題を扱う際に使うデータセットの累積もやはりここに属します。

画像ソース:MonkeyLearn Blog (オリジナルショートカット)

Q.どの程度レベルまで内容を扱いますか?

このレッスンでは、Ubuntu(Ubuntu)20.04 LTSベースにHadoop(Hadoop)3.2.1をユーザーが直接インストールするのに役立ちます。 UnixやLinuxの経験がなくても自然に追いつくと、Linuxを基につながるインストールのヒントとLinuxオペレーティングシステムを自然に熟知することになります。また、Hadoopが扱うCLI言語やユーザー言語を習得する基本的な部分を超えて、Googleが持っている技術であるDFS and MapReduce技術に慣れるのに役立ちます。 YARN(ヤン)についての理解は基礎理論だけを持つことになります。 後にHadoop 3.3.0中級コースでクラスターを設置しながらヤンについてのより深い学習を期待してください。

Q. Ubuntu 20.04 LTSを練習環境として使用する理由はありますか?

Ubuntuは無料で利用可能で、LTS(Long-Term Service)を通じて長期サービスのサポートを夢見ている企業を対象に、HadoopをLinuxにインストールしながら、自然に企業が要求するオペレーティングシステムや開発環境を構築するのに役立ちます。同じ環境内でEclipseやIntelligentを使用することで、ビッグデータを扱うデータサイエンスの夢を実現するのに役立つ時間があります。

UbuntuはWindowsオペレーティングシステムのインストールと運営です。
同様の環境、つまりグラフィカルユーザーインターフェース(GUI)
環境を通じてユーザーを助けています。

こんな方に
おすすめです

学習対象は
誰でしょう?

  • ビッグデータの基礎を最初から学びたい熱共生

  • ビッグデータの原理と適用に喘ぐ人

  • デ企業のビッグデータを扱うためにHadoopを学びたい人

  • Javaに基礎知識がある方

前提知識、
必要でしょうか?

  • The Concept of Big Data (ビッグデータについて)

  • 仮想マシン

  • データセット用語

  • Linuxの理解(Ubuntu)

  • Java 15

こんにちは
です。

583

受講生

37

受講レビュー

69

回答

4.6

講座評価

2

講座

네오아베뉴 대표 빌리 리 입니다.

2022년 9월 한국에 가족 모두 귀국한 뒤 현대자동차 빅데이터 프로젝트에 TA 컨설팅 (2022.09 -11월까지)하였고, 에자일 PM과 빅데이터 C-ITS 시스템 구축으로 하둡 에코시스템 및 머신러닝 딥러닝 리드하여 프로젝트 관리자 (PMO)역할을 하였습니다. 이후 Azure Data Factory & Azure Databricks 을 가지고 데이터 관리 기술을 AIA 생명 보험 이노베이션 데이터 플랫폼 팀에서 근무하면서 데이터 과학자로 깊은 탐구와 열정을 불살랐습니다.

2012년에서 2020년 까지 센터니얼 칼리지 Software Eng. Technician 졸업한 열공생이자 한국에서는 9년의 IT 경력 소유자로 금융권 (재무, 금융 프로젝트 및 빅데이터 관련 ) 에 다수 근무했습니다.

1999년 필리핀 (Dasmarinas) 지역에서 P.T.S. 네트워크 엔지니어링 자원 봉사자로 1년 근무하면서 글로벌 IT 세계와 네트워크 지식을 쌓으며 이후 2000년 한국으로 돌아와 K.M.C.에서 Clarion 4GL 언어로 Warehouse Inventory Control and Management 그리고 PIS Operational Test PCS C/C++ 개발했었습니다.

2001년 LG-SOFT SCHOOL 자바 전문가 과정 이수 후 CNMTechnologies 에서 e-CRM/e-SFA R&D 연구 및 개발 2년 정도 (한국산업은행/대정정부청사/영진제약) 다양한 프로젝트를 섭렵하였습니다.

2004년부터 2012년 캐나다로 올 때까지 SKT/SK C&C (IMOS), SC제일은행(TBC), 프로덴션 생명(PFMS), 교보생명 AXA Kyobo Life Insurance Account Management, Kook-min Bank 국민은행 Financial Management Reconstruction NGM외 다수 프로젝트에 참여 개발 및 리드하였습니다.

 

2012년 연말에 캐나다에 거주하면서 세 아이의 아빠이자 Scrum Master로서 에자일 개발 방식을 채택하여 핸디맨 어플/이커머스 어플/프로덱트 개발/레시피 어플 개발한 미주 캐나다 지역의 실경험자입니다.

カリキュラム

全体

85件 ∙ (6時間 39分)

講座資料(こうぎしりょう):

授業資料
講座掲載日: 
最終更新日: 

受講レビュー

全体

36件

4.6

36件の受講レビュー

  • Billy Lee님의 프로필 이미지
    Billy Lee

    受講レビュー 3

    平均評価 5.0

    5

    93% 受講後に作成

    이 강의는 빅데이터를 다루는 하둡 전문가로 양성하고 싶은 마음에서 강의를 제작했습니다. 클라우데라와 같은 종합적인 온 프로메스 배포 소프트웨어 어플리케이션(On-Premise Distribution Software: OPD)을 사용하기 보다는 직접 하둡을 처음부터 설치하고 데이터셋을 추출하고 이동 및 로드하는 단계로 여러분을 이동시킬 것입니다. 1.x 버전부터 시작된 하둡은 이제 3.3 버전까지 많은 기능들이 추가되면서 무척 해비한 플랫폼이 되었지만 많은 도구들을 다루며 빅데이터 전문가로 양성되는 마음이 넘치는 강의되기를 바랍니다.

    • 성실한개발자님의 프로필 이미지
      성실한개발자

      受講レビュー 4

      平均評価 5.0

      5

      100% 受講後に作成

      장점: 하둡 맵리듀스 기초를 배울 수 있다. 한국어로 된 유일한 하둡 강의인 듯 아쉬운 점: 맵퍼를 두개 사용해서 하나의 공통 키로 추출하거나 키를 두개 쓰는 경우 , 컴퍼레이터를 직접 설정하는 방법 등 궁금했던 내용이 없어서 아쉬웠다. 단점: 강사님 한국어 발음이 명확하지 않은데 배경음악이 커서 여러번 무슨 말을 하는건지 다시 들어야했다. --------------------------------------- 선생님 답변 보고 별점 5로 수정합니다.

      • Billy Lee
        知識共有者

        친절히 자세한 평가 감사합니다. 하둡의 이론은 방대하여 모든 일에 손을 댈수가 없다고 말할 수 있네요. 저의 강의를 듣고 하둡 전체를 이해하기는 더더욱 힘들죠. 배경음악을 제거한 뒤 선명한 목소리로 재녹음하였으니 재수강 고맙겠습니다. 업데이트한 강의도 있으니 고요한 시간에 들으시면서 하둡 전문가로 남기를 기대합니다.

    • 김태경님의 프로필 이미지
      김태경

      受講レビュー 38

      平均評価 4.7

      5

      59% 受講後に作成

      하둡 입문자에게 좋네요. 책보기 전에 먼저 학습하기 딱 좋은듯 합니다.

      • Billy Lee
        知識共有者

        네 좋은 평가 감사합니다. 하둡을 처음 접하는 입문자에게는 현재 시중에 나와있는 책들을 통해 따라가기 쉽지 않습니다. 그 점에서 저의 강의는 김태경님의 평가처럼 책을 구매하기 전 학습하면서 단일노드에서 하둡과 HDFS, YARN 어플리케이션 실행시키는 점을 부각시켰습니다. 효과가 있다면 감사합니다. 더 좋은 강의로 다시 뵙죠. 부디 하둡 전문가로 성장하기를 기대합니다.

    • 이훈태 남자님의 프로필 이미지
      이훈태 남자

      受講レビュー 56

      平均評価 5.0

      5

      100% 受講後に作成

      하둡 강의 정말 좋았습니다 ! 스파크 강의도 열렸으면 좋겠습니다. 감사합니다 !

      • Billy Lee
        知識共有者

        이 강의를 통해 하둡을 좀더 친근하게 다가서는 계기가 되길 기대합니다. 또한 스파크 강의가 여러분에게 전달되기를 기대합니다. 하둡 전문가되길 토론토에서 응원합니다.

    • 홍태경님의 프로필 이미지
      홍태경

      受講レビュー 28

      平均評価 5.0

      5

      31% 受講後に作成

      강사님 이런 질 좋은 강의를 너무 저렴한 가격에 시청할 수 있게 제공해 주셔서 너무 감사합니다! 데이터 엔지니어 신입이 되고 하둡과 스파크등 빅데이터 프레이워크를 어떻게 시작해야 하나 고민하며 두꺼운 책을 고려 하던 때에 과거에 구매 해 놓은 이 강의를 다시 보게 되었습니다 자바를 해본 적이 없어 이해하는데 시간이 좀 걸리겠지만 잘 수료 하겠습니다! 이번 년 말이나, 내년 초에 스파크 강의 예정이시라 하셧는데 너무 너무 기대하겠습니다! 제발 pyspark 기반으로 이 강의처럼 쉽게 설명이 되있길 바랍니다!

      ¥6,579

      hadoop3bigdataの他の講座

      知識共有者の他の講座を見てみましょう!

      似ている講座

      同じ分野の他の講座を見てみましょう!