강의

멘토링

로드맵

BEST
Data Science

/

Data Engineering

Khoa học dữ liệu thực tế Phần 2. Tiền xử lý dữ liệu

Tìm hiểu lý do tại sao việc khám phá dữ liệu (EDA), làm sạch dữ liệu, chia tỷ lệ, xử lý ngoại lệ, chuyển đổi nhật ký, mã hóa danh mục, v.v. là cần thiết và cách xử lý chúng trong thực tế thực tế. Bạn cũng sẽ tìm hiểu cách hợp nhất dữ liệu bảng và xử lý dữ liệu chuỗi thời gian (không có cấu trúc).

(4.8) 17 đánh giá

234 học viên

  • hjkim3
Python

Đánh giá từ những học viên đầu tiên

Dịch cái này sang tiếng Việt

  • Là bước đầu tiên trong phân tích dữ liệu và học máy, bạn sẽ tìm hiểu các khái niệm cơ bản về 1) làm sạch dữ liệu, 2) chia tỷ lệ, 3) xử lý ngoại lệ và 4) chuyển đổi dữ liệu (chuyển đổi nhật ký, mã hóa danh mục).

  • Trước khi phân tích dữ liệu toàn diện, bạn sẽ tìm hiểu các phương pháp phân tích khám phá (EDA) để kiểm tra các đặc điểm tổng thể của dữ liệu và xác định xem dữ liệu được thu thập có phù hợp để phân tích hay không.

  • Tìm hiểu dữ liệu bảng và xử lý dữ liệu chuỗi thời gian, đồng thời hiểu rõ các khái niệm về nối, nối, hợp nhất, nhóm, bảng trụ và dự đoán chuyển tiếp.

Chỉ bao gồm những điểm thiết yếu!
Tiền xử lý dữ liệu cần thiết cho phân tích dữ liệu

Phân tích dữ liệu lớn, học máy, học sâu, trí tuệ nhân tạo và chuyển đổi số (DT) là những lĩnh vực công nghệ có nhu cầu cao nhất hiện nay. Trong hầu hết mọi ngành, việc đào tạo các nhà khoa học dữ liệu để xử lý những công nghệ này là vô cùng quan trọng và cấp bách.

Tiền xử lý dữ liệu là nhiệm vụ đòi hỏi nhiều thời gian nhất từ người xử lý dữ liệu trong các công ty và có tác động lớn nhất đến hiệu suất phân tích dữ liệu (học máy).


📝 Tiền xử lý dữ liệu cốt lõi

Bài giảng này đề cập đến các phương pháp khám phá dữ liệu hiệu quả (EDA) và bốn khái niệm chính về xử lý dữ liệu trước: làm sạch dữ liệu, mở rộng quy mô, xử lý giá trị ngoại lai và chuyển đổi dữ liệu.


Cấu trúc bài giảng Lý thuyết + Thực hành


Dự đoán những người sống sót sau thảm họa Titanic?


Chúng tôi giúp bạn áp dụng ngay lập tức các phân tích dữ liệu cần thiết trong lĩnh vực này thông qua các bài tập dựa trên lý thuyết như xử lý giá trị bị thiếu, chuyển đổi dữ liệu và dự đoán phân loại tuyến tính.


🙋‍♂️ Chủ đề cần có trên trang web

Xử lý bảng
Xử lý dữ liệu chuỗi thời gian

Trong thực tế, việc kết hợp dữ liệu có cấu trúc bảng theo nhiều cách khác nhau thường là cần thiết. Hãy tìm hiểu sự khác biệt giữa các hàm concat, append, join, merge, groupby và pivot_table, đồng thời giải thích hàm nào hữu ích trong từng trường hợp.

Trong thực tế, chúng ta thường xử lý dữ liệu chuỗi thời gian phi cấu trúc. Chúng tôi sẽ giải thích cách sử dụng datetime và phương pháp dự đoán chuỗi thời gian tuần tự, đồng thời giới thiệu các mô hình dự đoán phân loại nhị phân và hồi quy sử dụng mô hình tuyến tính.


📕 Tính năng của khóa học

  • Mọi nội dung đều được giải thích bằng mã thực hành.

Đi đến mã thực hành 👉 https://github.com/data-labs/preprocessing

  • Mã ví dụ được cấu trúc để bạn có thể sử dụng ngay trong công việc của mình.
  • Mã này ngắn gọn nhưng vẫn chứa những nội dung cần thiết và được viết sao cho dễ sử dụng.

Khoa học dữ liệu cốt lõi

Python, ngôn ngữ nền tảng của khoa học dữ liệu.
Khóa học này được thiết kế để cung cấp kiến thức cơ bản về Python.
Đối với những người không có kiến thức cơ bản về ngôn ngữ Python,
Khoa học dữ liệu thực hành Phần 1. Thông qua bài giảng giới thiệu về Python.
Tôi khuyên bạn nên tìm hiểu kiến thức của người chơi.

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Tiền xử lý dữ liệu là quá trình quan trọng nhất quyết định hiệu suất phân tích dữ liệu. Nó sẽ hữu ích cho những ai muốn tổ chức một cách có hệ thống các phương pháp tiền xử lý dữ liệu cần thiết cho công việc thực tế.

  • Nó được khuyến khích cho những người hiểu các khái niệm cơ bản về việc đính kèm dữ liệu cấu trúc bảng và xử lý dữ liệu chuỗi thời gian và muốn sử dụng nó ngay lập tức trong lĩnh vực của họ.

Cần biết trước khi bắt đầu?

  • Cần có kiến ​​thức cơ bản về Python.

Xin chào
Đây là

921

Học viên

77

Đánh giá

11

Trả lời

4.8

Xếp hạng

3

Các khóa học

"고장난 라디오 고칠 수 있어?"

제가 전자공학과에 입학한 후 친구로부터 받은 질문입니다. 뭐, 대답은 했습니다. "전자공학과에서는 라디오 만드는 원리를 배우는 것이지 고장난 전자제품 고치는 것은 우리 일이 아니고..." 

이론으로 무장한 전문가보다 문제 해결사가 필요한 경우가 더 많습니다. 저는 실전 문제 해결이 더 중요하다고 생각합니다.

최근에는 머신러닝으로 금융, 에너지, 전자, 중장비, 물류, 신약개발, 식품 등 산업 영역의 문제를 해결하는 일을 하고 있는데, 정말 배울 것도 많고 할 일도 무궁무진한 영역인 것 같습니다. 본업은 교수지만 (강원대 컴퓨터공학과), 현장의 문제해결에 관심이 많아 여러 겸직을 하고 있습니다. AI신약개발지원센터장, KAIST 겸임교수, 그리고 데이터사이언스랩 대표를 맡고 있습니다.

AI 시대에 가장 필요한 인재는 실전 문제를 해결할 수 있는 데이터 사이언티스트라고 믿으며 여러분 모두  인기 있는 데이터 사이언티스트가 되기를 바랍니다.

Chương trình giảng dạy

Tất cả

19 bài giảng ∙ (4giờ 13phút)

Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

17 đánh giá

4.8

17 đánh giá

  • dfiejf님의 프로필 이미지
    dfiejf

    Đánh giá 8

    Đánh giá trung bình 4.9

    4

    100% đã tham gia

    학교 수업같이 차근차근하고 기초적이여서 좋습니다.

    • 김화종
      Giảng viên

      수업처럼 진행한 것이 맞습니다.좋은 성과 얻으시기 바랍니다.

  • 허룡님의 프로필 이미지
    허룡

    Đánh giá 5

    Đánh giá trung bình 4.6

    5

    100% đã tham gia

    항상 친절하고 차분한 설명 때문에 이해가 잘됩니다. 감사합니다!

    • 김화종
      Giảng viên

      좋은평 감사합니다.

  • 홍성은 (sungkenh)님의 프로필 이미지
    홍성은 (sungkenh)

    Đánh giá 2

    Đánh giá trung bình 5.0

    5

    100% đã tham gia

    파이썬 데이터 전처리 공부에 많은 도움이 되었습니다. 데이터 전처리에 필요한 다양한 방법론과 실제 데이터를 사용한 실습이 좋았습니다.

    • 김화종
      Giảng viên

      좋은 평가 감사합니다.

  • alcatraz76님의 프로필 이미지
    alcatraz76

    Đánh giá 2

    Đánh giá trung bình 5.0

    5

    100% đã tham gia

    개인적으로 매우 깔끔하고 훌륭한 강의라고 생각됩니다. 이전 Part1도 수강하였는데, 강의 진도상 내용이 조금 어려워진 부분은 있으나 문제없이 이해 할 수 있었습니다.

    • 김화종
      Giảng viên

      스스로 해결하셨다니 다행입니다. 궁금한 내용은 질문해주세요~

  • quber0201님의 프로필 이미지
    quber0201

    Đánh giá 3

    Đánh giá trung bình 3.0

    3

    100% đã tham gia

    정말 좋은 강의를 잘 들었습니다. 5시간 만에 데이타 전처리에 대한 핵심을 이해한 것 같습니다. 감사합니다 !

    • 김화종
      Giảng viên

      짧은 시간에 정리한다는 것이 특징입니다. 수강평 감사합니다!

1.163.974 ₫

Khóa học khác của hjkim3

Hãy khám phá các khóa học khác của giảng viên!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!