강의

멘토링

커뮤니티

Data Science

/

Data Engineering

シリコンバレーのリーダーが教えるビッグデータ処理(Spark)

ビッグデータを処理するというのは、Pandasでデータを処理することと何が違うのでしょうか?ビッグデータ処理の必須フレームワークであるSparkについて学んでみましょうか?

難易度 初級

受講期間 無制限

  • keeyonghan
Apache Spark
Apache Spark
pyspark
pyspark
Pandas
Pandas
Big Data
Big Data
SQL
SQL
Apache Spark
Apache Spark
pyspark
pyspark
Pandas
Pandas
Big Data
Big Data
SQL
SQL

学習した受講者のレビュー

学習した受講者のレビュー

4.9

5.0

hanseungggyu

30% 受講後に作成

業務でSparkが必要で受講しました。講義内容だけでなく、講師の方の教え方もとても良いですね😊😊 他の講義も全て受講します。 良い講義をアップしてくださりありがとうございます。 もっとたくさんアップしてください!

5.0

gs

30% 受講後に作成

本当に基礎から学べるのでとても良いです!講師の方の講義は一つずつ全部受講したいと思います。

5.0

everythx

32% 受講後に作成

高スペックな実務と大学講義を兼ねていらっしゃるためか、分かりやすいです

受講後に得られること

  • Spark

  • ビッグデータ処理

  • Databricks

  • Spark SQL

  • データエンジニアリング

シリコンバレーエンジニアが教える
データパイプライン設計の実務

大容量データ処理の標準、Spark

Pandasは小規模なデータ処理には便利ですが、データが大きくなると限界が現れます。一方、Sparkは、多数のグローバル企業が選択した、検証済みのビッグデータ処理フレームワークです。

高速処理速度と柔軟なスケーラビリティはもちろん、リアルタイムデータ分析と機械学習パイプラインの構築まで幅広くサポートし、データエンジニアリングだけでなくAI分野でも重要なツールとして位置づけられています。

Sparkは今や単純な選択ではなく、大規模なデータ環境で身につけなければならない重要な技術になりました。
この講義は、Sparkに初めて接する方が、実務に必要な性能最適化と分析設計力量を次々と積み重ねることができるように構成されています。

この講義を聞かなければならない理由

Spark学習の出発線をきちんとつかむ講義

技術の文脈を理解すると、その後の学習ははるかに高速で明確になります。このレッスンでは、データ処理システムの変化とPandasからSparkへの自然な進歩を学び、徐々にビッグデータ分析技術を習得することを可能にしました。

Sparkパフォーマンスの最適化と実践的なロジックの実装を組み合わせた講義

この講義では、ユーザーの行動分析、チャネルフローの把握、収益の集計など、さまざまなシナリオを直接実装し、
Sparkを迅速かつ柔軟に設計し活用するための重要な戦略を学びます。また、Partition、Shuffling、結合方式はもちろん、Parquet、UDF、UDAFなどの高度な機能まで段階的に取り上げ、実務に必要な性能最適化と複雑なロジック実装能力を自然に育てることができます。

ローカルを超えて、本番環境でSparkを扱う経験

このレッスンでは、AWS EMRを活用してSparkクラスターを設定および実行するプロセスを実践的に学びます。
Spark 4.0の最新機能からクラウド環境での運用フローまで直接体験し、ローカル実習を超えて実稼働レベルのSpark活用能力を備えるように設計されています。

評価4.9!サンノゼ州立大学データサイエンス専攻生の絶賛

この講義は米国サンノゼ州立大学データサイエンスの修士課程に含まれており、実際の教育現場で評価4.9の高い評価を受けました。 Spark入門と実務転換を同時に準備できる、海外で認められた実戦講義です。

このようなことを学びます。

1⃣ビッグデータ処理の発展歴史によるビッグデータ処理の特徴とチャレンジの理解
2⃣PandasとSparkの比較によるより段階的なデータ処理学習
3⃣Sparkプログラムの構造理解とSpark SQLプログラミングの学習
4⃣ Databricksで様々な例で学ぶ本番Sparkプログラミング
5⃣AWS EMRでSparkを試すとSpark 4.0について

こんな方におすすめです

ビッグデータを分析、処理することをしています。
業務の性格上、大きなデータ処理をしなければならないデータエンジニア/分析家/科学者

Pandasスケールを超えたいです。
大きなデータ処理が持つチャレンジに対する好奇心が強いPandasユーザー

ビッグデータ処理の理解が必要です。
主な仕事ではありませんが、ビッグデータ処理を理解する必要がある開発者

受講後は

  • ビッグデータ処理がどのように進化してきたか、どのようなチャレンジがあるのか​​理解します

  • ビッグデータ標準であるSparkが何であるか、構成とプログラム構造をPythonに基づいて学習します。

  • 例に基づいて、Pandasとの違いを理解し、構造化データを処理する際のSQLの効率性を理解し、Spark SQLの使い方を学びます。

シリコンバレーで検証されたビッグデータ専門家の洞察

こんにちは。 30年目のシリコンバレーデータ専門家の一機用です。サムスン電子で初めてキャリアを始めた後、31歳の年齢でシリコンバレーに出発し、最初の11年はYahooなどでウェブ検索開発を行い、ビッグデータ処理と初めて縁を結びました。その後、ユデミー(2021年ナスダック上場)、ポリボア(2015年ヤフー買収)などの組織でデータチームをビルドし、多様なシリコンバレーと韓国素材企業向けにデータ諮問をしながら積み重ねたノウハウとシリコンバレー就職率1位を誇るサンノゼ州立大学で修士課程の学生をスキルを共有します。

受講前の注意

練習環境

  • Spark 3.5をPythonベース(PySpark)として使用します。現在プレビュー版が開発中のSpark 4.xについては最後に簡単に紹介します。

  • 実践環境では主に

    Databricks Community Editionを使用していますが、Google Colab、Databricks Free Trial、AWS EMRも試してみます。


選手の知識と注意

  • 基本的なPython文法(特にPandas)


  • 基本的なSQL知識(初級)


こんな方に
おすすめです

学習対象は
誰でしょう?

  • 基本的にビッグデータ処理に関心のある人

  • Pandasの経験があり、それをビッグデータ処理技術に拡張したい人

  • ビッグデータ処理が業務上必要な人

前提知識、
必要でしょうか?

  • Pandasの使用経験

  • 基礎Python

  • 基本SQL

こんにちは
です。

1,064

受講生

69

受講レビュー

41

回答

4.9

講座評価

5

講座

コンピューター工学の修士課程修了後、サムスン電子で始まったキャリアが友人の勧めでシリコンバレーへと繋がり、過去29年間で13社の様々なステージの企業(起業、大企業、多数のスタートアップ)を渡り歩いてきました。

  • Yahoo: エンジニアリングディレクターとして検索エンジンを開発。

  • Udemy。データチームをゼロから立ち上げ30名規模まで成長させ、2021年10月にナス닥(Nasdaq)上場。

  • サムスン電子

  • ...

途中で11ヶ月間休んでみたり、図らずもエンジェル投資家(Chartmetric、Goodtime.io、Select Star、EO、Business Canvasなど)、アドバイザー(Moloco、Blind、Wolgeupjaengi Bujadeulなど)、コンサルティング(SKテレコム、現代カード、Eマートなど)などの役割を担いながら、自分自身のブランドを築いてきました。失敗を失敗ではなく教訓として捉えるポジティブな力と、継続という複利の力を信じています。

https://www.linkedin.com/in/keeyonghan/

YouTubeチャンネル

月給取りの金持ちたち(ウォルグッジェンイ・プジャドゥル)の講義

カリキュラム

全体

46件 ∙ (11時間 25分)

講座資料(こうぎしりょう):

授業資料
講座掲載日: 
最終更新日: 

受講レビュー

全体

9件

4.9

9件の受講レビュー

  • abcd123123님의 프로필 이미지
    abcd123123

    受講レビュー 327

    平均評価 5.0

    5

    7% 受講後に作成

    • shjeong93962385님의 프로필 이미지
      shjeong93962385

      受講レビュー 2

      平均評価 5.0

      5

      30% 受講後に作成

      • paulmoon008308님의 프로필 이미지
        paulmoon008308

        受講レビュー 111

        平均評価 4.9

        5

        17% 受講後に作成

        • hanseungggyu님의 프로필 이미지
          hanseungggyu

          受講レビュー 3

          平均評価 5.0

          5

          30% 受講後に作成

          業務でSparkが必要で受講しました。講義内容だけでなく、講師の方の教え方もとても良いですね😊😊 他の講義も全て受講します。 良い講義をアップしてくださりありがとうございます。 もっとたくさんアップしてください!

          • ilgulee0808님의 프로필 이미지
            ilgulee0808

            受講レビュー 3

            平均評価 5.0

            5

            30% 受講後に作成

            ¥13,425

            keeyonghanの他の講座

            知識共有者の他の講座を見てみましょう!

            似ている講座

            同じ分野の他の講座を見てみましょう!