本番データサイエンス Part2.データ前処理
hjkim3
ビジネス実践では、データナビゲーション(EDA)、データクリーニング、スケーリング、異常値処理、対数変換、カテゴリエンコーディングなどが必要な理由と、どのように対処する必要があるかを学びます。また、テーブルデータの結合、(非定型)時系列データの処理方法を学びます。
初級
Python
企業のデジタル変換(DT)、人工知能(AI)の導入は、機械学習モデルの構築から始まります。ただし、機械学習技術の範囲は非常に広く、最適な方法を選択するには基本的な概念を明確に理解する必要があります。この講義では、機械学習の基本概念を明確に理解するために必要な重要な内容を5つの例を中心に紹介します。
学習した受講者のレビュー
5.0
박언상
データ分析と機械学習についての詳細な説明が良かったです。
5.0
이우광
いいですね。
5.0
정원태
詳細な説明のおかげで、全体的な流れを理解するのに役立ちました。
機械学習が何であるか、どのように動作するかについての基本原理を理解します。
機械学習モデルをPythonで実装する方法と、モデルのパフォーマンスを評価するさまざまなパフォーマンス指標を理解します。
従来の統計分析と機械学習の違いを理解し、確率分布、独立検定、カイ二乗検定などの主要な統計技術を例を通して学びます。
核心だけを入れた!
モデル構築のための機械学習の基本理解
機械学習とは、数値を予測する作業(回帰)、カテゴリを予測する分類、最適な推薦などを行うソフトウェアで、データを見て学習して徐々にパフォーマンスが向上するソフトウェアを意味します。
現在、人工知能を実装する代表的な方法が機械学習技術です。機械学習の主な機能は、インテリジェントな動作を実行する機械学習「モデル」を作成することです。
入力データ(X)から最適な出力(y)を得るソフトウェアをいい、最適な出力とは正解(label、target)をよく予測することをいいます。
モデルの種類には、線形モデル、ロジスティック回帰、SVM、結晶ツリー、ランダムフォレスト、kNN、ベーシオン、ディープラーニングモデル(MLP、CNN、RNN)などがあります。このレッスンでは、これらのアルゴリズムの内容については説明しませんが、機械学習モデルを実装する基本的で一般的な方法を線形モデルを使用して学びます。各モデルの特徴については、異なる講義で取り上げます。
最適なモデルを実装するには、モデルを学習するために必要なトレーニングデータと、学習したモデルの動作を検証するために必要な検証データを十分に準備する必要があります。
生データから適切な学習および検証データを作成するプロセスはデータ前処理であり、データ前処理は機械学習モデルのパフォーマンスに大きく依存します。
機械学習モデルを使用する目的は、次の4つに分けられます。
機械学習の概要を学習し、機械学習を理解するための重要な概念を5つの例を中心に説明します。
まず、回帰モデルの実装、学習、検証方法、およびモデルのパフォーマンス評価尺度であるR-squared、MAE、RMSEなどを学びます。
次に、分類モデルの実装方法と決定境界、コンフュージョン行列、精度、精度、リコール、f-1スコアの概念を学びます。分類のパフォーマンス評価を行うには、コンフュージョン行列を明確に理解する必要があり、例を使って詳細を紹介します。
分類モデルの包括的なパフォーマンス評価を行うには、予測順位(ランキング)を評価する必要がありますが、そのためにROC-AUC、precision-recall curveの使い方を説明します。
実際の業務では、分類モデルが満たすべき最小限の精度やリコール値要求基準があり、これを満たす最適な分類境界値(threshold)を選択することが多いです。 Precision-Recallカーブを使用して最適な境界値を見つける方法について詳しく説明します。
機械学習 学びながら 最も 気になる もの 中 一つ 統計分析と 違い 理解する です。統計分析は、技術統計、推定、仮説検証に分けられます。
統計学では、理論的な根拠を説明することを重要視し、仮説、確率、信頼区間、誤差範囲などを扱います。一方、機械学習は、理論的な根拠の提示ではなく、予測や分類をうまく実行するソフトウェアモデルを作成することを目的としています。
分析するデータのサイズが小さい場合は、統計的分析に依存して説明、推定、仮説検証などを行う必要がありますが、データが十分に多い場合は機械学習モデルを作成し、本番で利用可能なモデルを作成する方が便利です。
この講義では、正規分布の特性など統計分析の基本的な内容を紹介します。ちなみに、正規分布とは、累積されるサンプルの確率分布関数がもはや変わらず収束したときの確率分布関数です。 (下図)
学習対象は
誰でしょう?
機械学習の動作原理を初めて学ぶ方
機械学習を自分の仕事に適用する必要がありますが、多くの時間を投資するのが難しい場合は、短時間で機械学習の核心を学びたい人に役立ちます。
前提知識、
必要でしょうか?
Pythonの基礎知識が必要です。
921
受講生
78
受講レビュー
11
回答
4.8
講座評価
3
講座
「壊れたラジオ、直せる?」
私が電子工学科に入学した後、友人から受けた質問です。まあ、こう答えました。「電子工学科ではラジオを作る原理を学ぶのであって、壊れた電化製品を直すのは僕たちの仕事じゃないし……」
理論で武装した専門家よりも、問題解決者が必要とされる場合の方が多いです。私は、実戦での問題解決の方がより重要だと考えています。
最近は機械学習を用いて、金融、エネルギー、電子、重装備、物流、新薬開発、食品など、産業領域の課題を解決する仕事に携わっていますが、本当に学ぶことも多く、やるべきことが無限にある領域だと感じています。本職は教授(江原大学 コンピュータ工学科)ですが、現場の課題解決に関心が高く、さまざまな役職を兼任しています。AI新薬開発支援センター長、KAIST兼任教授、そしてデータサイエンスラボの代表を務めています。
AI時代に最も必要とされる人材は、実戦問題を解決できるデータサイエンティストであると信じており、皆様が市場から求められるデータサイエンティストになられることを願っています。
全体
20件 ∙ (4時間 45分)
1. 講義紹介
03:26
2. 機械学習の定義
17:44
3. トレーニングと検証データの生成
15:01
4. 線形回帰モデル
14:57
5. 回帰モデルの性能評価
16:12
6. 実際のキー - 体重予測モデル
08:43
7. 多変量回帰モデル
11:28
8. カテゴリ変数の使用
09:33
全体
31件
4.7
31件の受講レビュー
受講レビュー 4
∙
平均評価 5.0
受講レビュー 2
∙
平均評価 5.0
受講レビュー 10
∙
平均評価 5.0
受講レビュー 1
∙
平均評価 5.0
受講レビュー 1
∙
平均評価 5.0
¥8,206
知識共有者の他の講座を見てみましょう!
同じ分野の他の講座を見てみましょう!