Inflearn brand logo image
Inflearn brand logo image
Inflearn brand logo image
BEST
Data Science

/

Data Engineering

Khoa học dữ liệu thực tế Phần 2. Tiền xử lý dữ liệu

Tìm hiểu lý do tại sao việc khám phá dữ liệu (EDA), làm sạch dữ liệu, chia tỷ lệ, xử lý ngoại lệ, chuyển đổi nhật ký, mã hóa danh mục, v.v. là cần thiết và cách xử lý chúng trong thực tế thực tế. Bạn cũng sẽ tìm hiểu cách hợp nhất dữ liệu bảng và xử lý dữ liệu chuỗi thời gian (không có cấu trúc).

(4.8) 17 đánh giá

234 học viên

  • hjkim3
Python

Đánh giá từ những học viên đầu tiên

Dịch cái này sang tiếng Việt

  • Là bước đầu tiên trong phân tích dữ liệu và học máy, bạn sẽ tìm hiểu các khái niệm cơ bản về 1) làm sạch dữ liệu, 2) chia tỷ lệ, 3) xử lý ngoại lệ và 4) chuyển đổi dữ liệu (chuyển đổi nhật ký, mã hóa danh mục).

  • Trước khi phân tích dữ liệu toàn diện, bạn sẽ tìm hiểu các phương pháp phân tích khám phá (EDA) để kiểm tra các đặc điểm tổng thể của dữ liệu và xác định xem dữ liệu được thu thập có phù hợp để phân tích hay không.

  • Tìm hiểu dữ liệu bảng và xử lý dữ liệu chuỗi thời gian, đồng thời hiểu rõ các khái niệm về nối, nối, hợp nhất, nhóm, bảng trụ và dự đoán chuyển tiếp.

Chỉ bao gồm những điểm thiết yếu!
Tiền xử lý dữ liệu cần thiết cho phân tích dữ liệu

Phân tích dữ liệu lớn, học máy, học sâu, trí tuệ nhân tạo và chuyển đổi số (DT) là những lĩnh vực công nghệ có nhu cầu cao nhất hiện nay. Trong hầu hết mọi ngành, việc đào tạo các nhà khoa học dữ liệu để xử lý những công nghệ này là vô cùng quan trọng và cấp bách.

Tiền xử lý dữ liệu là nhiệm vụ đòi hỏi nhiều thời gian nhất từ người xử lý dữ liệu trong các công ty và có tác động lớn nhất đến hiệu suất phân tích dữ liệu (học máy).


📝 Tiền xử lý dữ liệu cốt lõi

Bài giảng này đề cập đến các phương pháp khám phá dữ liệu hiệu quả (EDA) và bốn khái niệm chính về xử lý dữ liệu trước: làm sạch dữ liệu, mở rộng quy mô, xử lý giá trị ngoại lai và chuyển đổi dữ liệu.


Cấu trúc bài giảng Lý thuyết + Thực hành


Dự đoán những người sống sót sau thảm họa Titanic?


Chúng tôi giúp bạn áp dụng ngay lập tức các phân tích dữ liệu cần thiết trong lĩnh vực này thông qua các bài tập dựa trên lý thuyết như xử lý giá trị bị thiếu, chuyển đổi dữ liệu và dự đoán phân loại tuyến tính.


🙋‍♂️ Chủ đề cần có trên trang web

Xử lý bảng
Xử lý dữ liệu chuỗi thời gian

Trong thực tế, việc kết hợp dữ liệu có cấu trúc bảng theo nhiều cách khác nhau thường là cần thiết. Hãy tìm hiểu sự khác biệt giữa các hàm concat, append, join, merge, groupby và pivot_table, đồng thời giải thích hàm nào hữu ích trong từng trường hợp.

Trong thực tế, chúng ta thường xử lý dữ liệu chuỗi thời gian phi cấu trúc. Chúng tôi sẽ giải thích cách sử dụng datetime và phương pháp dự đoán chuỗi thời gian tuần tự, đồng thời giới thiệu các mô hình dự đoán phân loại nhị phân và hồi quy sử dụng mô hình tuyến tính.


📕 Tính năng của khóa học

  • Mọi nội dung đều được giải thích bằng mã thực hành.

Đi đến mã thực hành 👉 https://github.com/data-labs/preprocessing

  • Mã ví dụ được cấu trúc để bạn có thể sử dụng ngay trong công việc của mình.
  • Mã này ngắn gọn nhưng vẫn chứa những nội dung cần thiết và được viết sao cho dễ sử dụng.

Khoa học dữ liệu cốt lõi

Python, ngôn ngữ nền tảng của khoa học dữ liệu.
Khóa học này được thiết kế để cung cấp kiến thức cơ bản về Python.
Đối với những người không có kiến thức cơ bản về ngôn ngữ Python,
Khoa học dữ liệu thực hành Phần 1. Thông qua bài giảng giới thiệu về Python.
Tôi khuyên bạn nên tìm hiểu kiến thức của người chơi.

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Tiền xử lý dữ liệu là quá trình quan trọng nhất quyết định hiệu suất phân tích dữ liệu. Nó sẽ hữu ích cho những ai muốn tổ chức một cách có hệ thống các phương pháp tiền xử lý dữ liệu cần thiết cho công việc thực tế.

  • Nó được khuyến khích cho những người hiểu các khái niệm cơ bản về việc đính kèm dữ liệu cấu trúc bảng và xử lý dữ liệu chuỗi thời gian và muốn sử dụng nó ngay lập tức trong lĩnh vực của họ.

Cần biết trước khi bắt đầu?

  • Cần có kiến ​​thức cơ bản về Python.

Xin chào
Đây là

919

Học viên

77

Đánh giá

11

Trả lời

4.8

Xếp hạng

3

Các khóa học

"고장난 라디오 고칠 수 있어?"

제가 전자공학과에 입학한 후 친구로부터 받은 질문입니다. 뭐, 대답은 했습니다. "전자공학과에서는 라디오 만드는 원리를 배우는 것이지 고장난 전자제품 고치는 것은 우리 일이 아니고..." 

이론으로 무장한 전문가보다 문제 해결사가 필요한 경우가 더 많습니다. 저는 실전 문제 해결이 더 중요하다고 생각합니다.

최근에는 머신러닝으로 금융, 에너지, 전자, 중장비, 물류, 신약개발, 식품 등 산업 영역의 문제를 해결하는 일을 하고 있는데, 정말 배울 것도 많고 할 일도 무궁무진한 영역인 것 같습니다. 본업은 교수지만 (강원대 컴퓨터공학과), 현장의 문제해결에 관심이 많아 여러 겸직을 하고 있습니다. AI신약개발지원센터장, KAIST 겸임교수, 그리고 데이터사이언스랩 대표를 맡고 있습니다.

AI 시대에 가장 필요한 인재는 실전 문제를 해결할 수 있는 데이터 사이언티스트라고 믿으며 여러분 모두  인기 있는 데이터 사이언티스트가 되기를 바랍니다.

Chương trình giảng dạy

Tất cả

19 bài giảng ∙ (4giờ 13phút)

Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

17 đánh giá

4.8

17 đánh giá

  • dfeafe님의 프로필 이미지
    dfeafe

    Đánh giá 8

    Đánh giá trung bình 4.9

    4

    100% đã tham gia

    I like it because it's step-by-step and basic, like a school class.

    • hjkim3
      Giảng viên

      It was conducted like a class. I hope you get good results.

  • victory1791791577님의 프로필 이미지
    victory1791791577

    Đánh giá 5

    Đánh giá trung bình 4.6

    5

    100% đã tham gia

    I always understand it well because of your kind and calm explanations. Thank you!

    • hjkim3
      Giảng viên

      Thank you for your kind review.

  • sungkenh0540님의 프로필 이미지
    sungkenh0540

    Đánh giá 2

    Đánh giá trung bình 5.0

    5

    100% đã tham gia

    It was very helpful for studying Python data preprocessing. I liked the various methodologies required for data preprocessing and the hands-on practice using real data.

    • hjkim3
      Giảng viên

      Thank you for your kind review.

  • alcatraz761636님의 프로필 이미지
    alcatraz761636

    Đánh giá 2

    Đánh giá trung bình 5.0

    5

    100% đã tham gia

    Personally, I think it is a very neat and excellent lecture. I also took the previous Part 1, and although there were some parts that were a bit difficult due to the progress of the lecture, I was able to understand it without any problems.

    • hjkim3
      Giảng viên

      I'm glad you figured it out on your own. If you have any questions, please ask~

  • quber02012351님의 프로필 이미지
    quber02012351

    Đánh giá 3

    Đánh giá trung bình 3.0

    3

    100% đã tham gia

    I really enjoyed this great lecture. I think I understood the core of data preprocessing in 5 hours. Thank you!

    • hjkim3
      Giảng viên

      The feature is that it is organized in a short period of time. Thank you for your review!

1.164.107 ₫

Khóa học khác của hjkim3

Hãy khám phá các khóa học khác của giảng viên!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!