Inflearn brand logo image
Inflearn brand logo image
Inflearn brand logo image
BEST
Data Science

/

Data Engineering

Practical Data Science Part 2. Data Preprocessing

Learn why and how to handle data exploration (EDA), data cleaning, scaling, outlier handling, log transformation, and categorical encoding in real-world applications. You will also learn how to merge tabular data and process (unstructured) time series data.

(4.8) 17 reviews

234 learners

  • hjkim3
Python

Reviews from Early Learners

What you will learn!

  • As the first step in data analysis and machine learning, you will learn the basic concepts of 1) data cleaning, 2) scaling, 3) outlier handling, and 4) data transformation (log transformation, category encoding).

  • Before starting full-scale data analysis, you will learn the exploratory analysis (EDA) method to examine the overall characteristics of the data and determine whether the collected data is suitable for analysis.

  • Learn how to process table data and time series data, and clearly understand the concepts of concat, join, merge, groupby, pivot_table, and walk forward prediction.

Contains only the essentials!
Essential data preprocessing for data analysis

Big data analytics, machine learning, deep learning, artificial intelligence, and digital transformation (DT) are among the most in-demand technology fields today. In nearly every industry, training data scientists to handle these technologies is crucial and urgent.

Data preprocessing is the task that requires the most time from data handlers in companies and has the greatest impact on data analysis (machine learning) performance.


📝 Core data preprocessing

This lecture covers effective data exploration (EDA) methods and the four key concepts of data preprocessing: data cleaning, scaling, outlier handling, and data transformation.


👩‍💻 Theory + Practice Lecture Structure


Predicting Titanic Survivors?


We help you immediately apply data analysis required in the field through theory-based exercises such as missing value handling, data transformation, and linear classification prediction.


🙋‍♂️ Topics needed on site

Handling tables
Time series data processing

In practice, combining table-structured data in various ways is often necessary. Understand the differences between the concat, append, join, merge, groupby, and pivot_table functions, and explain which functions are useful in which situations.

In practice, we often deal with unstructured time series data. We'll explain how to use datetime and the sequential walk-forward time series prediction method, and introduce binary classification and regression prediction models using linear models.


📕 Course Features

  • All content is explained with practice code.

Go to the practice code 👉 https://github.com/data-labs/preprocessing

  • The example code is structured so that you can use it right away in your work.
  • The code is concise, yet contains the essentials and is written to be easy to use.

👩‍💻 Core Data Science

Python, the foundational language of data science.
This course is designed to provide basic knowledge of Python.
For those who do not have basic knowledge of the Python language,
Practical Data Science Part 1. Through an introductory Python lecture.
I recommend learning player knowledge.

Recommended for
these people

Who is this course right for?

  • Data preprocessing is the most important process that determines the performance of data analysis. This will be helpful for those who want to systematically organize the data preprocessing methods required for practical work.

  • This is recommended for those who want to understand the basic concepts of pasting table structure data and handling time series data and apply them immediately in the field.

Need to know before starting?

  • Basic knowledge of Python is required.

Hello
This is

919

Learners

77

Reviews

11

Answers

4.8

Rating

3

Courses

"고장난 라디오 고칠 수 있어?"

제가 전자공학과에 입학한 후 친구로부터 받은 질문입니다. 뭐, 대답은 했습니다. "전자공학과에서는 라디오 만드는 원리를 배우는 것이지 고장난 전자제품 고치는 것은 우리 일이 아니고..." 

이론으로 무장한 전문가보다 문제 해결사가 필요한 경우가 더 많습니다. 저는 실전 문제 해결이 더 중요하다고 생각합니다.

최근에는 머신러닝으로 금융, 에너지, 전자, 중장비, 물류, 신약개발, 식품 등 산업 영역의 문제를 해결하는 일을 하고 있는데, 정말 배울 것도 많고 할 일도 무궁무진한 영역인 것 같습니다. 본업은 교수지만 (강원대 컴퓨터공학과), 현장의 문제해결에 관심이 많아 여러 겸직을 하고 있습니다. AI신약개발지원센터장, KAIST 겸임교수, 그리고 데이터사이언스랩 대표를 맡고 있습니다.

AI 시대에 가장 필요한 인재는 실전 문제를 해결할 수 있는 데이터 사이언티스트라고 믿으며 여러분 모두  인기 있는 데이터 사이언티스트가 되기를 바랍니다.

Curriculum

All

19 lectures ∙ (4hr 13min)

Published: 
Last updated: 

Reviews

All

17 reviews

4.8

17 reviews

  • dfiejf님의 프로필 이미지
    dfiejf

    Reviews 8

    Average Rating 4.9

    4

    100% enrolled

    학교 수업같이 차근차근하고 기초적이여서 좋습니다.

    • 김화종
      Instructor

      수업처럼 진행한 것이 맞습니다.좋은 성과 얻으시기 바랍니다.

  • 허룡님의 프로필 이미지
    허룡

    Reviews 5

    Average Rating 4.6

    5

    100% enrolled

    항상 친절하고 차분한 설명 때문에 이해가 잘됩니다. 감사합니다!

    • 김화종
      Instructor

      좋은평 감사합니다.

  • 홍성은 (sungkenh)님의 프로필 이미지
    홍성은 (sungkenh)

    Reviews 2

    Average Rating 5.0

    5

    100% enrolled

    파이썬 데이터 전처리 공부에 많은 도움이 되었습니다. 데이터 전처리에 필요한 다양한 방법론과 실제 데이터를 사용한 실습이 좋았습니다.

    • 김화종
      Instructor

      좋은 평가 감사합니다.

  • alcatraz76님의 프로필 이미지
    alcatraz76

    Reviews 2

    Average Rating 5.0

    5

    100% enrolled

    개인적으로 매우 깔끔하고 훌륭한 강의라고 생각됩니다. 이전 Part1도 수강하였는데, 강의 진도상 내용이 조금 어려워진 부분은 있으나 문제없이 이해 할 수 있었습니다.

    • 김화종
      Instructor

      스스로 해결하셨다니 다행입니다. 궁금한 내용은 질문해주세요~

  • quber0201님의 프로필 이미지
    quber0201

    Reviews 3

    Average Rating 3.0

    3

    100% enrolled

    정말 좋은 강의를 잘 들었습니다. 5시간 만에 데이타 전처리에 대한 핵심을 이해한 것 같습니다. 감사합니다 !

    • 김화종
      Instructor

      짧은 시간에 정리한다는 것이 특징입니다. 수강평 감사합니다!

$42.90

hjkim3's other courses

Check out other courses by the instructor!

Similar courses

Explore other courses in the same field!