실전 데이터 사이언스 Part2. 데이터 전처리
김화종
현업 실전에서 데이터 탐색 (EDA), 데이터 클리닝, 스케일링, 이상치 처리, 로그변환, 카테고리 인코딩 등이 왜 필요한지 그리고 어떻게 다루어야 하는지를 배웁니다. 또한 테이블 데이터 합치기, (비정형) 시계열 데이터 처리 방법을 배웁니다.
Basic
Python
企業のデジタル変換(DT)、人工知能(AI)の導入は、機械学習モデルの構築から始まります。ただし、機械学習技術の範囲は非常に広く、最適な方法を選択するには基本的な概念を明確に理解する必要があります。この講義では、機械学習の基本概念を明確に理解するために必要な重要な内容を5つの例を中心に紹介します。
機械学習が何であるか、どのように動作するかについての基本原理を理解します。
機械学習モデルをPythonで実装する方法と、モデルのパフォーマンスを評価するさまざまなパフォーマンス指標を理解します。
従来の統計分析と機械学習の違いを理解し、確率分布、独立検定、カイ二乗検定などの主要な統計技術を例を通して学びます。
コアだけを収めた!
モデル構築のための機械学習の基本理解
機械学習とは、数値を予測する作業(回帰)、カテゴリを予測する分類、最適な推薦などを行うソフトウェアで、データを見て学習して徐々にパフォーマンスが向上するソフトウェアを意味します。
現在、人工知能を実装する代表的な方法が機械学習技術です。機械学習の主な機能は、インテリジェントな動作を実行する機械学習「モデル」を作成することです。
入力データ(X)から最適な出力(y)を得るソフトウェアをいい、最適な出力とは正解(label、target)をよく予測することをいいます。
モデルの種類には、線形モデル、ロジスティック回帰、SVM、結晶ツリー、ランダムフォレスト、kNN、ベーシオン、ディープラーニングモデル(MLP、CNN、RNN)などがあります。このレッスンでは、これらのアルゴリズムの内容については説明しませんが、機械学習モデルを実装する基本的で一般的な方法を線形モデルを使用して学びます。各モデルの特徴については、異なる講義で取り上げます。
最適なモデルを実装するには、モデルを学習するために必要なトレーニングデータと、学習したモデルの動作を検証するために必要な検証データを十分に準備する必要があります。
生データから適切な学習および検証データを作成するプロセスはデータ前処理であり、データ前処理は機械学習モデルのパフォーマンスに大きく依存します。
機械学習モデルを使用する目的は、次の4つに分けられます。
機械学習の概要を学習し、機械学習を理解するための重要な概念を5つの例を中心に説明します。
まず、回帰モデルの実装、学習、検証方法、およびモデルのパフォーマンス評価尺度であるR-squared、MAE、RMSEなどを学びます。
次に、分類モデルの実装方法と決定境界、コンフュージョン行列、精度、精度、リコール、f-1スコアの概念を学びます。分類のパフォーマンス評価を行うには、コンフュージョン行列を明確に理解する必要があり、例を使って詳細を紹介します。
分類モデルの包括的なパフォーマンス評価を行うには、予測順位(ランキング)を評価する必要がありますが、そのためにROC-AUC、precision-recall curveの使い方を説明します。
実際の業務では、分類モデルが満たすべき最小限の精度やリコール値要求基準があり、これを満たす最適な分類境界値(threshold)を選択することが多いです。 Precision-Recallカーブを使用して最適な境界値を見つける方法について詳しく説明します。
機械学習 学びながら 最も 気になる もの 中 一つ 統計分析と 違い 理解する です。統計分析は、技術統計、推定、仮説検証に分けられます。
統計学では、理論的な根拠を説明することを重要視し、仮説、確率、信頼区間、誤差範囲などを扱います。一方、機械学習は、理論的な根拠の提示ではなく、予測や分類をうまく実行するソフトウェアモデルを作成することを目的としています。
分析するデータのサイズが小さい場合は、統計的分析に依存して説明、推定、仮説検証などを行う必要がありますが、データが十分に多い場合は機械学習モデルを作成し、本番で利用可能なモデルを作成する方が便利です。
この講義では、正規分布の特性など統計分析の基本的な内容を紹介します。ちなみに、正規分布とは、累積されるサンプルの確率分布関数がもはや変わらず収束したときの確率分布関数です。 (下図)
学習対象は
誰でしょう?
機械学習の動作原理を初めて学ぶ方
機械学習を自分の仕事に適用する必要がありますが、多くの時間を投資するのが難しい場合は、短時間で機械学習の核心を学びたい人に役立ちます。
前提知識、
必要でしょうか?
Pythonの基礎知識が必要です。
917
受講生
77
受講レビュー
11
回答
4.8
講座評価
3
講座
"고장난 라디오 고칠 수 있어?"
제가 전자공학과에 입학한 후 친구로부터 받은 질문입니다. 뭐, 대답은 했습니다. "전자공학과에서는 라디오 만드는 원리를 배우는 것이지 고장난 전자제품 고치는 것은 우리 일이 아니고..."
이론으로 무장한 전문가보다 문제 해결사가 필요한 경우가 더 많습니다. 저는 실전 문제 해결이 더 중요하다고 생각합니다.
최근에는 머신러닝으로 금융, 에너지, 전자, 중장비, 물류, 신약개발, 식품 등 산업 영역의 문제를 해결하는 일을 하고 있는데, 정말 배울 것도 많고 할 일도 무궁무진한 영역인 것 같습니다. 본업은 교수지만 (강원대 컴퓨터공학과), 현장의 문제해결에 관심이 많아 여러 겸직을 하고 있습니다. AI신약개발지원센터장, KAIST 겸임교수, 그리고 데이터사이언스랩 대표를 맡고 있습니다.
AI 시대에 가장 필요한 인재는 실전 문제를 해결할 수 있는 데이터 사이언티스트라고 믿으며 여러분 모두 인기 있는 데이터 사이언티스트가 되기를 바랍니다.
全体
20件 ∙ (4時間 45分)
1. 講義紹介
03:26
2. 機械学習の定義
17:44
3. トレーニングと検証データの生成
15:01
4. 線形回帰モデル
14:57
5. 回帰モデルの性能評価
16:12
6. 実際のキー - 体重予測モデル
08:43
7. 多変量回帰モデル
11:28
8. カテゴリ変数の使用
09:33
知識共有者の他の講座を見てみましょう!
同じ分野の他の講座を見てみましょう!