Inflearn brand logo image
Inflearn brand logo image
Inflearn brand logo image
Data Science

/

Data Engineering

シリコンバレーのリーダーが教えるビッグデータ処理(Spark)

ビッグデータを処理するというのは、Pandasでデータを処理することと何が違うのでしょうか?ビッグデータ処理の必須フレームワークであるSparkについて学んでみましょうか?

  • keeyonghan9539
실리콘밸리
시리즈
데이터처리
Apache Spark
pyspark
Pandas
Big Data
SQL

こんなことが学べます

  • Spark

  • ビッグデータ処理

  • Databricks

  • Spark SQL

  • データエンジニアリング

シリコンバレーエンジニアが教える
データパイプライン設計の実務

大容量データ処理の標準、Spark

Pandasは小規模なデータ処理には便利ですが、データが大きくなると限界が現れます。一方、Sparkは、多数のグローバル企業が選択した、検証済みのビッグデータ処理フレームワークです。

高速処理速度と柔軟なスケーラビリティはもちろん、リアルタイムデータ分析と機械学習パイプラインの構築まで幅広くサポートし、データエンジニアリングだけでなくAI分野でも重要なツールとして位置づけられています。

Sparkは今や単純な選択ではなく、大規模なデータ環境で身につけなければならない重要な技術になりました。
この講義は、Sparkに初めて接する方が、実務に必要な性能最適化と分析設計力量を次々と積み重ねることができるように構成されています。

この講義を聞かなければならない理由

Spark学習の出発線をきちんとつかむ講義

技術の文脈を理解すると、その後の学習ははるかに高速で明確になります。このレッスンでは、データ処理システムの変化とPandasからSparkへの自然な進歩を学び、徐々にビッグデータ分析技術を習得することを可能にしました。

Sparkパフォーマンスの最適化と実践的なロジックの実装を組み合わせた講義

この講義では、ユーザーの行動分析、チャネルフローの把握、収益の集計など、さまざまなシナリオを直接実装し、
Sparkを迅速かつ柔軟に設計し活用するための重要な戦略を学びます。また、Partition、Shuffling、結合方式はもちろん、Parquet、UDF、UDAFなどの高度な機能まで段階的に取り上げ、実務に必要な性能最適化と複雑なロジック実装能力を自然に育てることができます。

ローカルを超えて、本番環境でSparkを扱う経験

このレッスンでは、AWS EMRを活用してSparkクラスターを設定および実行するプロセスを実践的に学びます。
Spark 4.0の最新機能からクラウド環境での運用フローまで直接体験し、ローカル実習を超えて実稼働レベルのSpark活用能力を備えるように設計されています。

評価4.9!サンノゼ州立大学データサイエンス専攻生の絶賛

この講義は米国サンノゼ州立大学データサイエンスの修士課程に含まれており、実際の教育現場で評価4.9の高い評価を受けました。 Spark入門と実務転換を同時に準備できる、海外で認められた実戦講義です。

このようなことを学びます。

1⃣ビッグデータ処理の発展歴史によるビッグデータ処理の特徴とチャレンジの理解
2⃣PandasとSparkの比較によるより段階的なデータ処理学習
3⃣Sparkプログラムの構造理解とSpark SQLプログラミングの学習
4⃣ Databricksで様々な例で学ぶ本番Sparkプログラミング
5⃣AWS EMRでSparkを試すとSpark 4.0について

こんな方におすすめです

ビッグデータを分析、処理することをしています。
業務の性格上、大きなデータ処理をしなければならないデータエンジニア/分析家/科学者

Pandasスケールを超えたいです。
大きなデータ処理が持つチャレンジに対する好奇心が強いPandasユーザー

ビッグデータ処理の理解が必要です。
主な仕事ではありませんが、ビッグデータ処理を理解する必要がある開発者

受講後は

  • ビッグデータ処理がどのように進化してきたか、どのようなチャレンジがあるのか​​理解します

  • ビッグデータ標準であるSparkが何であるか、構成とプログラム構造をPythonに基づいて学習します。

  • 例に基づいて、Pandasとの違いを理解し、構造化データを処理する際のSQLの効率性を理解し、Spark SQLの使い方を学びます。

シリコンバレーで検証されたビッグデータ専門家の洞察

こんにちは。 30年目のシリコンバレーデータ専門家の一機用です。サムスン電子で初めてキャリアを始めた後、31歳の年齢でシリコンバレーに出発し、最初の11年はYahooなどでウェブ検索開発を行い、ビッグデータ処理と初めて縁を結びました。その後、ユデミー(2021年ナスダック上場)、ポリボア(2015年ヤフー買収)などの組織でデータチームをビルドし、多様なシリコンバレーと韓国素材企業向けにデータ諮問をしながら積み重ねたノウハウとシリコンバレー就職率1位を誇るサンノゼ州立大学で修士課程の学生をスキルを共有します。

受講前の注意

練習環境

  • Spark 3.5をPythonベース(PySpark)として使用します。現在プレビュー版が開発中のSpark 4.xについては最後に簡単に紹介します。

  • 実践環境では主に

    Databricks Community Editionを使用していますが、Google Colab、Databricks Free Trial、AWS EMRも試してみます。


選手の知識と注意

  • 基本的なPython文法(特にPandas)


  • 基本的なSQL知識(初級)


こんな方に
おすすめです

学習対象は
誰でしょう?

  • 基本的にビッグデータ処理に関心のある人

  • Pandasの経験があり、それをビッグデータ処理技術に拡張したい人

  • ビッグデータ処理が業務上必要な人

前提知識、
必要でしょうか?

  • Pandasの使用経験

  • 基礎Python

  • 基本SQL

こんにちは
です。

851

受講生

49

受講レビュー

30

回答

4.9

講座評価

5

講座

컴퓨터 공학 석사 후 삼성전자에서 시작된 커리어가 친구덕에 실리콘밸리로 이어져 지난 29년간 13개의 다양한 스테이지의 회사를 다녔습니다 (창업, 대기업들, 다수의 스타트업들).

  • 야후: 엔지니어링 디렉터로 검색엔진 개발.

  • 유데미. 데이터팀을 처음 만들어 30명까지 성장. 2021년 10월에 나스닥 상장

  • 삼성전자

  • ...

중간에 11개월 쉬어보기도 했고 본의 아니게 엔젤투자자(Chartmetric, Goodtime.io, Select Star, EO, 비지니스 캔버스, ...), 어드바이저(몰로코, 블라인드, 월급쟁이부자들, ...), 컨설팅(SK텔레콤, 현대카드, 이마트 등등) 등의 역할을 하면서 나만의 브랜드를 만들었습니다. 실패를 실패가 아닌 교훈으로 보는 긍정의 힘과 꾸준함이라는 복리의 힘을 믿습니다.

https://www.linkedin.com/in/keeyonghan/

유투브 채널

월급쟁이부자들 강의

カリキュラム

全体

46件 ∙ (11時間 25分)

講座資料(こうぎしりょう):

授業資料
講座掲載日: 
最終更新日: 

受講レビュー

全体

4件

4.8

4件の受講レビュー

  • gs님의 프로필 이미지
    gs

    受講レビュー 1

    平均評価 5.0

    5

    30% 受講後に作成

    • YEONSOO LIM님의 프로필 이미지
      YEONSOO LIM

      受講レビュー 1

      平均評価 4.0

      4

      30% 受講後に作成

      • diazepam57님의 프로필 이미지
        diazepam57

        受講レビュー 10

        平均評価 5.0

        5

        60% 受講後に作成

        • everythx님의 프로필 이미지
          everythx

          受講レビュー 10

          平均評価 5.0

          5

          32% 受講後に作成

          고스펙의 실무와 대학강의를 겸비하셔서인지 이해가 쉽게됩니다

          ¥12,970

          keeyonghan9539の他の講座

          知識共有者の他の講座を見てみましょう!

          似ている講座

          同じ分野の他の講座を見てみましょう!