강의

멘토링

커뮤니티

BEST
Data Science

/

Data Engineering

Khoa học dữ liệu thực tế Phần 2. Tiền xử lý dữ liệu

Tìm hiểu lý do tại sao việc khám phá dữ liệu (EDA), làm sạch dữ liệu, chia tỷ lệ, xử lý ngoại lệ, chuyển đổi nhật ký, mã hóa danh mục, v.v. là cần thiết và cách xử lý chúng trong thực tế thực tế. Bạn cũng sẽ tìm hiểu cách hợp nhất dữ liệu bảng và xử lý dữ liệu chuỗi thời gian (không có cấu trúc).

(4.7) 18 đánh giá

234 học viên

  • hjkim3
Python

Đánh giá từ những học viên đầu tiên

Bạn sẽ nhận được điều này sau khi học.

  • Là bước đầu tiên trong phân tích dữ liệu và học máy, bạn sẽ tìm hiểu các khái niệm cơ bản về 1) làm sạch dữ liệu, 2) chia tỷ lệ, 3) xử lý ngoại lệ và 4) chuyển đổi dữ liệu (chuyển đổi nhật ký, mã hóa danh mục).

  • Trước khi phân tích dữ liệu toàn diện, bạn sẽ tìm hiểu các phương pháp phân tích khám phá (EDA) để kiểm tra các đặc điểm tổng thể của dữ liệu và xác định xem dữ liệu được thu thập có phù hợp để phân tích hay không.

  • Tìm hiểu dữ liệu bảng và xử lý dữ liệu chuỗi thời gian, đồng thời hiểu rõ các khái niệm về nối, nối, hợp nhất, nhóm, bảng trụ và dự đoán chuyển tiếp.

Chỉ bao gồm những điểm thiết yếu!
Tiền xử lý dữ liệu cần thiết cho phân tích dữ liệu

Phân tích dữ liệu lớn, học máy, học sâu, trí tuệ nhân tạo và chuyển đổi số (DT) là những lĩnh vực công nghệ có nhu cầu cao nhất hiện nay. Trong hầu hết mọi ngành, việc đào tạo các nhà khoa học dữ liệu để xử lý những công nghệ này là vô cùng quan trọng và cấp bách.

Tiền xử lý dữ liệu là nhiệm vụ đòi hỏi nhiều thời gian nhất từ người xử lý dữ liệu trong các công ty và có tác động lớn nhất đến hiệu suất phân tích dữ liệu (học máy).


📝 Tiền xử lý dữ liệu cốt lõi

Bài giảng này đề cập đến các phương pháp khám phá dữ liệu hiệu quả (EDA) và bốn khái niệm chính về xử lý dữ liệu trước: làm sạch dữ liệu, mở rộng quy mô, xử lý giá trị ngoại lai và chuyển đổi dữ liệu.


Cấu trúc bài giảng Lý thuyết + Thực hành


Dự đoán những người sống sót sau thảm họa Titanic?


Chúng tôi giúp bạn áp dụng ngay lập tức các phân tích dữ liệu cần thiết trong lĩnh vực này thông qua các bài tập dựa trên lý thuyết như xử lý giá trị bị thiếu, chuyển đổi dữ liệu và dự đoán phân loại tuyến tính.


🙋‍♂️ Chủ đề cần có trên trang web

Xử lý bảng
Xử lý dữ liệu chuỗi thời gian

Trong thực tế, việc kết hợp dữ liệu có cấu trúc bảng theo nhiều cách khác nhau thường là cần thiết. Hãy tìm hiểu sự khác biệt giữa các hàm concat, append, join, merge, groupby và pivot_table, đồng thời giải thích hàm nào hữu ích trong từng trường hợp.

Trong thực tế, chúng ta thường xử lý dữ liệu chuỗi thời gian phi cấu trúc. Chúng tôi sẽ giải thích cách sử dụng datetime và phương pháp dự đoán chuỗi thời gian tuần tự, đồng thời giới thiệu các mô hình dự đoán phân loại nhị phân và hồi quy sử dụng mô hình tuyến tính.


📕 Tính năng của khóa học

  • Mọi nội dung đều được giải thích bằng mã thực hành.

Đi đến mã thực hành 👉 https://github.com/data-labs/preprocessing

  • Mã ví dụ được cấu trúc để bạn có thể sử dụng ngay trong công việc của mình.
  • Mã này ngắn gọn nhưng vẫn chứa những nội dung cần thiết và được viết sao cho dễ sử dụng.

Khoa học dữ liệu cốt lõi

Python, ngôn ngữ nền tảng của khoa học dữ liệu.
Khóa học này được thiết kế để cung cấp kiến thức cơ bản về Python.
Đối với những người không có kiến thức cơ bản về ngôn ngữ Python,
Khoa học dữ liệu thực hành Phần 1. Thông qua bài giảng giới thiệu về Python.
Tôi khuyên bạn nên tìm hiểu kiến thức của người chơi.

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Tiền xử lý dữ liệu là quá trình quan trọng nhất quyết định hiệu suất phân tích dữ liệu. Nó sẽ hữu ích cho những ai muốn tổ chức một cách có hệ thống các phương pháp tiền xử lý dữ liệu cần thiết cho công việc thực tế.

  • Nó được khuyến khích cho những người hiểu các khái niệm cơ bản về việc đính kèm dữ liệu cấu trúc bảng và xử lý dữ liệu chuỗi thời gian và muốn sử dụng nó ngay lập tức trong lĩnh vực của họ.

Cần biết trước khi bắt đầu?

  • Cần có kiến ​​thức cơ bản về Python.

Xin chào
Đây là

921

Học viên

78

Đánh giá

11

Trả lời

4.8

Xếp hạng

3

Các khóa học

"고장난 라디오 고칠 수 있어?"

제가 전자공학과에 입학한 후 친구로부터 받은 질문입니다. 뭐, 대답은 했습니다. "전자공학과에서는 라디오 만드는 원리를 배우는 것이지 고장난 전자제품 고치는 것은 우리 일이 아니고..." 

이론으로 무장한 전문가보다 문제 해결사가 필요한 경우가 더 많습니다. 저는 실전 문제 해결이 더 중요하다고 생각합니다.

최근에는 머신러닝으로 금융, 에너지, 전자, 중장비, 물류, 신약개발, 식품 등 산업 영역의 문제를 해결하는 일을 하고 있는데, 정말 배울 것도 많고 할 일도 무궁무진한 영역인 것 같습니다. 본업은 교수지만 (강원대 컴퓨터공학과), 현장의 문제해결에 관심이 많아 여러 겸직을 하고 있습니다. AI신약개발지원센터장, KAIST 겸임교수, 그리고 데이터사이언스랩 대표를 맡고 있습니다.

AI 시대에 가장 필요한 인재는 실전 문제를 해결할 수 있는 데이터 사이언티스트라고 믿으며 여러분 모두  인기 있는 데이터 사이언티스트가 되기를 바랍니다.

Chương trình giảng dạy

Tất cả

19 bài giảng ∙ (4giờ 13phút)

Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

18 đánh giá

4.7

18 đánh giá

  • dfeafe님의 프로필 이미지
    dfeafe

    Đánh giá 8

    Đánh giá trung bình 4.9

    4

    100% đã tham gia

    Tôi thích nó vì nó từng bước một và cơ bản, giống như một lớp học ở trường.

    • hjkim3
      Giảng viên

      Đúng là nó được tiến hành như một lớp học. Tôi hy vọng bạn sẽ đạt được kết quả tốt.

  • victory1791791577님의 프로필 이미지
    victory1791791577

    Đánh giá 5

    Đánh giá trung bình 4.6

    5

    100% đã tham gia

    Luôn luôn giải thích tử tế và bình tĩnh để dễ hiểu. Cảm ơn!

    • hjkim3
      Giảng viên

      Cảm ơn bạn đã đánh giá tốt.

  • sungkenh0540님의 프로필 이미지
    sungkenh0540

    Đánh giá 2

    Đánh giá trung bình 5.0

    5

    100% đã tham gia

    Nó rất hữu ích trong việc nghiên cứu tiền xử lý dữ liệu Python. Tôi thích các phương pháp khác nhau cần thiết để xử lý trước dữ liệu và thực hành sử dụng dữ liệu thực.

    • hjkim3
      Giảng viên

      Cảm ơn bạn đã đánh giá tốt.

  • alcatraz761636님의 프로필 이미지
    alcatraz761636

    Đánh giá 2

    Đánh giá trung bình 5.0

    5

    100% đã tham gia

    Cá nhân tôi đánh giá đây là một bài giảng rất hay và xuất sắc. Trước đây tôi đã học Phần 1 và mặc dù có một số phần mà nội dung hơi khó khi khóa học diễn ra nhưng tôi có thể hiểu nó mà không gặp vấn đề gì.

    • hjkim3
      Giảng viên

      Tôi rất vui vì bạn đã tự mình tìm ra nó. Hãy hỏi bất kỳ câu hỏi nào bạn có ~

  • quber02012351님의 프로필 이미지
    quber02012351

    Đánh giá 3

    Đánh giá trung bình 3.0

    3

    100% đã tham gia

    Tôi thực sự rất thích bài giảng. Tôi nghĩ rằng tôi đã hiểu cốt lõi của quá trình xử lý trước dữ liệu trong 5 giờ. Cảm ơn !

    • hjkim3
      Giảng viên

      Đặc điểm của nó là có thể được tổ chức trong thời gian ngắn. Cảm ơn bạn đã đánh giá của bạn!

1.164.769 ₫

Khóa học khác của hjkim3

Hãy khám phá các khóa học khác của giảng viên!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!