inflearn logo

[Tiền xử lý dữ liệu] Đừng lo lắng! Vì đã có Pandas rồi.

Bạn có dữ liệu nhưng đang cảm thấy bối rối không biết làm thế nào để đọc và xử lý chúng trong Python? Đừng lo lắng. Bạn có thể giải quyết vấn đề này bằng phép màu của Pandas. Pandas là thư viện xử lý dữ liệu mạnh mẽ, hiệu quả và hữu ích nhất. Nâng cao kỹ năng tiền xử lý dữ liệu với Pandas! Khám phá insight cực đỉnh!

(5.0) 2 đánh giá

14 học viên

Độ khó Cơ bản

Thời gian Không giới hạn

Python
Python
Pandas
Pandas
Data Engineering
Data Engineering
data-science
data-science
data-processing
data-processing
Python
Python
Pandas
Pandas
Data Engineering
Data Engineering
data-science
data-science
data-processing
data-processing

Đánh giá từ những học viên đầu tiên

Đánh giá từ những học viên đầu tiên

5.0

5.0

otdootpo

100% đã tham gia

Bài giảng được sắp xếp rất khoa học nên nội dung rất rõ ràng và việc học cũng rất thuận tiện. Nếu có thêm các bài giảng về khái niệm phân tích dữ liệu thì sẽ tuyệt vời hơn nữa.

5.0

sprun

29% đã tham gia

Việc học tiền xử lý dữ liệu Python rất hữu ích. Mong rằng sẽ có thêm các khóa học tiếp theo. Cảm ơn vì đã dạy rất kỹ lưỡng từng bước từ cơ bản.

Bạn sẽ nhận được điều này sau khi học.

  • Kỹ năng xử lý dữ liệu có thể vận dụng trong suốt sự nghiệp của bản thân

  • Pandas đã trở nên phổ biến rộng rãi như một yếu tố thiết yếu trong phân tích dữ liệu!

  • Hợp nhất dữ liệu, tái cấu trúc, xử lý giá trị thiếu, xử lý dữ liệu trùng lặp

  • Xử lý dữ liệu văn bản, dữ liệu phân loại và dữ liệu ngày tháng

  • Cung cấp giáo trình có thể tải xuống (pdf) và tệp thực hành

📢 Ưu điểm của khóa học này

  • Không chỉ đơn thuần là giới thiệu các tính năng của Pandas. Tôi sẽ giải thích để bạn có thể hiểu được ngữ cảnh và tự mình đưa ra quyết định về việc "tại sao" phải tiền xử lý dữ liệu, "khi nào" cần làm, làm "như thế nào" và dựa trên "tiêu chuẩn nào".

  • Không cần cài đặt bất kỳ thứ gì trên máy tính, bạn có thể thực hành lập trình ngay trên Google Colab chỉ với trình duyệt web.

  • Cung cấp tài liệu giáo trình PDF và mã thực hành có thể sử dụng ngay.

  • Bạn có thể rèn luyện kỹ năng thực hành tiền xử lý với bộ dữ liệu phim IMDB thực tế. Bạn có thể nâng cao khả năng giải quyết vấn đề bằng cách đối mặt với các bài toán tiền xử lý có thể phát sinh trong dữ liệu thực tế.

📌 Tiền xử lý dữ liệu (Preprocessing) sử dụng Pandas

  • Pandas là một thư viện Python mạnh mẽ và linh hoạt, chuyên dùng cho tiền xử lý dữ liệu.

  • Tiền xử lý dữ liệu là một quy trình thiết yếu để chuyển đổi dữ liệu thô (raw data) sang dạng phù hợp cho việc phân tích trước khi thực hiện phân tích dữ liệu hoặc mô hình hóa dữ liệu.

  • Bằng cách xử lý thích hợp các giá trị thiếu, giá trị ngoại lệ và dữ liệu trùng lặp, bạn có thể cải thiện chất lượng dữ liệu và nâng cao hiệu quả phân tích.

  • Dữ liệu văn bản, dữ liệu phân loại và dữ liệu chuỗi thời gian có thể được xử lý.

  • Hãy cùng khám phá nội dung chi tiết hơn trực tiếp trong bài giảng nhé. 😄

📌 Tiền xử lý dữ liệu? Chúng tôi sẽ giải đáp những câu hỏi này!

  • Làm thế nào để tải dữ liệu từ tệp??

  • Làm thế nào để chọn các hàng hoặc cột thỏa mãn các điều kiện cụ thể trong DataFrame? Có cách nào để lọc hoặc sắp xếp dữ liệu theo tiêu chí mong muốn không?

  • Khi kết hợp hoặc hợp nhất nhiều DataFrame, tôi cảm thấy bối rối về sự khác biệt giữa merge() và concat() cũng như trường hợp nào nên sử dụng phương thức nào là phù hợp. Bạn có thể giải thích rõ ràng giúp tôi được không?, I am confused about the differences between merge() and concat() and which situations are appropriate for each. Could you explain them clearly?

  • Phương pháp xử lý giá trị thiếu (missing value) hiệu quả là gì? Trong trường hợp nào nên xóa bỏ và trường hợp nào nên thay thế? Ví dụ, tiêu chuẩn để quyết định thay thế bằng một giá trị thống kê cụ thể nên được xác định như thế nào?? In which cases should they be deleted, and in which cases should they be replaced? For example, how should the criteria for replacing them with specific statistical values be determined?

  • Ngoài phương pháp trực quan để phát hiện các giá trị ngoại lệ, có phương pháp nào sử dụng các tiêu chuẩn thống kê hoặc hàm số không? Và liệu việc luôn luôn loại bỏ các giá trị ngoại lệ đã phát hiện có phải là cách tốt nhất không?, are there ways to use statistical criteria or functions? Also, is it always best to unconditionally remove the detected outliers?

  • Khi tiền xử lý dữ liệu văn bản, nghe nói "Biểu thức chính quy" rất quan trọng, vậy đó là gì vậy?, I heard "Regular Expressions" are important. What are they?

  • Làm thế nào để phân biệt dữ liệu phân loại? One-Hot Encoding và Label Encoding - mỗi phương pháp nên được sử dụng trong trường hợp nào là tốt nhất?? One-Hot Encoding and Label Encoding - in which cases is it best to use each method?

  • Khi xử lý dữ liệu chuỗi thời gian, ngoài việc chuyển đổi định dạng ngày/giờ, có lưu ý đặc biệt nào về tiền xử lý không? Ví dụ, các việc như điều chỉnh khoảng cách thời gian hay tính toán trung bình trượt có thể bao gồm trong phần tiền xử lý không?, are there any specific preprocessing steps to be careful of besides date/time format conversion? For example, can things like adjusting time intervals or calculating moving averages be included in preprocessing?

Cung cấp quy trình thực hành chi tiết và tận tình để bất kỳ ai cũng có thể dễ dàng làm theo và thấu hiểu.

📌 Chúng tôi chuẩn bị nội dung này dành cho những đối tượng sau!


Những người muốn bắt đầu nhập môn phân tích dữ liệu

Người mới bắt đầu muốn thử sức với công việc phân tích dữ liệu và muốn tăng cường năng lực xử lý dữ liệu.


Những người cảm thấy mình còn thiếu kiến thức nền tảng

Những người muốn bắt đầu phân tích dữ liệu nhưng cảm thấy mông lung không biết nên bắt đầu từ đâu


Những người mới bắt đầu với Pandas

Những người đã từng học phân tích dữ liệu nhưng chưa quen với Pandas nên gặp khó khăn trong việc vận dụng.

🏅 Sau khi hoàn thành khóa học này, bạn sẽ có thể làm được những gì?

  • Có thể nắm vững các kiến thức cơ bản về Pandas.

  • Ngay cả những người từng nản lòng vì không quen với việc sử dụng Pandas cũng có thể tự tin sử dụng Pandas.

  • Bạn có thể hiểu các kỹ thuật tiền xử lý dữ liệu, đồng thời nắm vững các tác vụ và kỹ thuật chính được thực hiện trong giai đoạn tiền xử lý..

🤔 Bạn có điều gì thắc mắc không?

Q. Tôi có thể tham gia khóa học ngay cả khi không biết rõ về Python không?

Ngữ pháp Python cơ bản là điều bạn cần phải hiểu rõ.

Q. Tại sao chúng ta cần phải học tiền xử lý dữ liệu?

Có câu nói rằng "80% công việc phân tích dữ liệu là tiền xử lý dữ liệu", cho thấy chúng ta phải dành rất nhiều thời gian cho công đoạn này. Dữ liệu thực tế (raw data) không bao giờ là dữ liệu sạch (clean data), chúng thường gặp các vấn đề như "thiếu giá trị, chứa giá trị bất thường, sai định dạng...". Dữ liệu chưa được tinh chế có thể làm sai lệch kết quả phân tích. Do đó, có thể nói tiền xử lý dữ liệu là bước bắt buộc trong phân tích dữ liệu.

🛍 Lưu ý trước khi khóa học bắt đầu

Môi trường thực hành

  • Công cụ sử dụng: Sử dụng Google Colaboratory. Bạn chỉ cần có tài khoản Google và trình duyệt web.


Tài liệu học tập

  • Cung cấp giáo trình học tập dưới dạng tệp PDF.

  • Cung cấp các tệp thực hành (.ipynb), dữ liệu thực hành, v.v.

Kiến thức tiên quyết và những lưu ý

  • Là khóa học dành cho người mới bắt đầu phân tích dữ liệu, vì vậy bạn cần nắm vững các cú pháp Python cơ bản.

  • Không nhất thiết phải học tất cả các bài giảng theo thứ tự. Nếu bạn đã khá quen thuộc với Pandas, bạn có thể chọn lọc và chỉ học những phần cần thiết. Nếu đây là lần đầu bạn tiếp cận Pandas, hãy học từ từ ngay từ đầu nhé.

Python, Pandas, khoa học dữ liệu, phân tích dữ liệu, làm sạch dữ liệu

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Dành cho những ai đang khao khát tìm hiểu về tiền xử lý dữ liệu bằng Pandas

  • Những người mới bắt đầu nhập môn phân tích dữ liệu

Cần biết trước khi bắt đầu?

  • Cơ bản về Python

Xin chào
Đây là aonekoda

  • Cử nhân Khoa học Máy tính, Thạc sĩ Thống kê

  • Kinh nghiệm giảng dạy tại nhiều doanh nghiệp như Samsung Display, Samsung Electronics, Trung tâm Đào tạo Oracle Hàn Quốc, Multi Campus, Etivers Learning, v.v.

  • Giảng viên ủy quyền của Oracle, Giảng viên ủy quyền của Oracle Cloud Infrastructure(OCI)

  • Giảng viên được ủy quyền của Google Cloud (GCP)

  • Giảng dạy về Phân tích dữ liệu, Trực quan hóa dữ liệu, Machine Learning, Deep Learning, Cloud, RDBMS, v.v.

     

Thêm

Chương trình giảng dạy

Tất cả

24 bài giảng ∙ (6giờ 43phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

2 đánh giá

5.0

2 đánh giá

  • otdootpo7073님의 프로필 이미지
    otdootpo7073

    Đánh giá 1

    Đánh giá trung bình 5.0

    5

    100% đã tham gia

    Bài giảng được sắp xếp rất khoa học nên nội dung rất rõ ràng và việc học cũng rất thuận tiện. Nếu có thêm các bài giảng về khái niệm phân tích dữ liệu thì sẽ tuyệt vời hơn nữa.

    • aonekoda
      Giảng viên

      Cảm ơn bạn vì những đánh giá tích cực về khóa học. Để không lãng phí thời gian quý báu của bạn, tôi sẽ tiếp tục đáp lại bằng những nội dung chất lượng hơn nữa trong tương lai. Chúc bạn học tập thật tốt!

  • sprun7390님의 프로필 이미지
    sprun7390

    Đánh giá 1

    Đánh giá trung bình 5.0

    Đã chỉnh sửa

    5

    29% đã tham gia

    Việc học tiền xử lý dữ liệu Python rất hữu ích. Mong rằng sẽ có thêm các khóa học tiếp theo. Cảm ơn vì đã dạy rất kỹ lưỡng từng bước từ cơ bản.

    • aonekoda
      Giảng viên

      Cảm ơn đánh giá tốt.

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!

Ưu đãi có thời hạn, kết thúc sau 5 ngày ngày

33.000 ₫

25%

920.749 ₫