
Data Engineering Course (1): ビッグデータ Hadoop を直接インストールする
Billy Lee
Hadoopとビッグデータを学びたい学生は、このコースを通じてビッグデータの世界を体験する素晴らしい発展を祝います!
初級
Big Data, Hadoop, Data Engineering
データはあるけれど、これをどうやってPythonで読み込み、処理すればいいのか途方に暮れていませんか?ご安心ください。Pandasの魔法で解決できます。Pandasは、最も強力で効率的、かつ便利なデータ処理ライブラリです。 Pandasでデータ前処理スキルをアップ!インサイトをどんどん引き出しましょう!
受講生 15名
難易度 初級
受講期間 無制限
学習した受講者のレビュー
5.0
otdootpo
講義がしっかり整理されており、内容も明快で学習しやすかったです。データ分析の概念に関する内容も講義していただけると嬉しいです。
5.0
sprun
Pythonのデータ前処理の学習に大変役立ちました。 続編の講義も用意されると嬉しいです。 基礎から丁寧に教えていただき、ありがとうございました。
自分のキャリア全般にわたって活用できるデータ処理技術
データ分析に欠かせない要素として広く定着したPandas!
データの結合、再構造化、欠損値処理、重複データ処理
テキストデータ、カテゴリデータ、日付データの処理
ダウンロード可能な教材(PDF)と実習ファイルを提供
単にPandasの機能だけをお伝えするのではありません。データの前処理を「なぜ」行うのか、「いつ」行うのか、「どのように」行うのか、そして「どのような基準」で行うのかを文脈を通じて理解し、自ら判断できるように説明します。
PCに何もインストールする必要はなく、ウェブブラウザだけでGoogle Colabからすぐにコーディング実習が可能です。
PDF教材ファイルとすぐに使える実習コードを提供します。
実際の映画IMDBデータセットで、前処理の実践感覚を養うことができます。 実際のデータで発生しうる前処理の問題に直面しながら、問題解決能力を高めることができます。
Pandasはデータ前処理に特化した強力で柔軟なPythonライブラリです。
データ前処理は、データ分析やデータモデリングの前に生データ(raw data)を分析に適した形式に変換する必須のプロセスです。
欠損値、外れ値、重複データを適切に処理することで、データの品質を高め、分析効率を向上させることができます。
テキストデータ、カテゴリデータ、時系列データを処理できます。
より詳細な内容を講義で直接確認してみてください。 😄
データをファイルから読み込むときはどうすればいいですか??
DataFrameで特定の条件に合う行や列をどのように選択しますか?希望する基準でデータをフィルタリングしたりソートしたりする方法はありますか?
複数のDataFrameを結合または併合する際、merge()とconcat()の違いや、それぞれどのような状況で使用するのが適切なのか混乱しています。明確に説明していただけますか?, I am confused about the differences between merge() and concat() and which situations are appropriate for each. Could you explain them clearly?
欠損値を処理する効果的な方法は何でしょうか?どのような場合に削除し、どのような場合に補完するのですか?例えば、特定の統計値で補完する基準をどのように決めるべきでしょうか?? In which cases should they be deleted, and in which cases should they be replaced? For example, how should the criteria for replacing them with specific statistical values be determined?
外れ値を検知する視覚的な方法以外に、統計的な基準や関数を活用する方法はありますか?また、検知された外れ値を無条件に除去するのが最善なのでしょうか?, are there ways to use statistical criteria or functions? Also, is it always best to unconditionally remove the detected outliers?
テキストデータを前処理する際、「正規表現」が重要だそうですが、それは何ですか?, I heard "Regular Expressions" are important. What are they?
カテゴリ型データをどのように区分しますか?One-Hot EncodingとLabel Encoding - それぞれの方法はどのような場合に使用するのが良いでしょうか?? One-Hot Encoding and Label Encoding - in which cases is it best to use each method?
時系列データを扱う際、日付・時間の形式変換以外に特に注意すべき前処理事項はありますか?例えば、時間間隔の調整や移動平均の計算などは前処理に含まれるのでしょうか?, are there any specific preprocessing steps to be careful of besides date/time format conversion? For example, can things like adjusting time intervals or calculating moving averages be included in preprocessing?
誰でも簡単に真似して理解できるよう、親切で詳細な実習過程を提供します。
データ分析に入門しようとしている方
データ分析業務に挑戦し、データ処理能力を強化したい入門者
基礎が不足していると感じる方
データ分析を始めたいけれど、何から手をつければいいか分からず途方に暮れている方々
Pandasが初めての方
すでにデータ分析を学んだことはあるが、Pandasに慣れておらず活用に苦労している方
Pandasの基礎をマスターすることができます。
Pandasを活用することに慣れておらず、何度も挫折した方々も自信を持ってPandasを活用できるようになります。
データ前処理技術を理解し、前処理段階で行われる主要な作業と技術を習得することができます。.
Q. Pythonをよく知らなくても受講は可能ですか?
Pythonの基礎文法程度は理解している必要があります。
Q. データ前処理を学ぶべき理由は何でしょうか?
「データ分析業務の8割がデータ前処理」という言葉があるほど、多くの時間をデータ前処理に費やすことになります。現実世界のデータ(生データ)は、「値が欠落していたり、異常な値が入っていたり、フォーマットが合っていなかったり…」といった、きれいなデータ(クリーンデータ)は一つもありません。精製されていないデータは、データ分析の結果を歪めてしまう可能性があります。したがって、データ前処理はデータ分析の必須段階であると言えます。
使用ツール:Google Colaboratoryを使用します。Googleアカウントとウェブブラウザさえあれば大丈夫です。
PDF形式の学習教材を提供します。
実習ファイル(.ipynb)、実習データなどを提供します。
データ分析入門者のためのコースで、基本的なPythonの文法は習得している必要があります。
すべての講義を順番に学習する必要はありません。Pandasにある程度慣れている方なら、必要な部分だけを選んで受講しても大丈夫です。Pandasが初めての方は、最初からゆっくり学習してください。
Python, Pandas, data-science, data-analysis, data-cleaning
学習対象は
誰でしょう?
Pandasを使ったデータ前処理に飢えている方々
データ分析に入門される方々
前提知識、
必要でしょうか?
Python基礎
キャリア認証
コンピューターサイエンス学士、統計学修士
サムスンディスプレイ、サムスン電子、韓国オラクル教育センター、マルチキャンパス、エティバースラーニングなど、多数の企業での講義経歴
Oracle公認講師、Oracle Cloud Infrastructure(OCI)公認講師
Google Cloud Authorized Trainer(GCP) 公認講師
データ分析、データ視覚化、機械学習、ディープラーニング、Cloud、RDBMSなどの講義
全体
24件 ∙ (6時間 43分)
講座資料(こうぎしりょう):
全体
2件
5.0
2件の受講レビュー
受講レビュー 1
∙
平均評価 5.0
5
講義がしっかり整理されており、内容も明快で学習しやすかったです。データ分析の概念に関する内容も講義していただけると嬉しいです。
素敵な受講レビューをありがとうございます。貴重な時間が無駄にならないよう、これからも充実したコンテンツでお応えしていきます。勉強頑張ってください!
同じ分野の他の講座を見てみましょう!