Chinh phục phân tích và trực quan hóa dữ liệu chỉ với hai trang tài liệu
Khi sử dụng Pandas để phân tích dữ liệu, tiền xử lý, học máy (machine learning) và học sâu (deep learning), chúng ta thường có xu hướng chỉ tập trung vào những chức năng hay dùng nhất.
Có một bản Pandas Cheat Sheet đã tổng hợp lại tất cả những nội dung cốt lõi này. Đối với những ai cảm thấy mệt mỏi khi phải học Pandas qua những cuốn sách dày cộp, tài liệu này sẽ hướng dẫn bạn về Python Pandas chỉ trong vỏn vẹn hai trang giấy. Hãy cùng tìm hiểu các chức năng chính của Pandas thông qua bản cheat sheet được cung cấp từ chính hướng dẫn chính thức của Pandas.
Tôi muốn biến phương pháp phân tích của người hướng dẫn thành của riêng tôi.
Cảm ơn
5.0
세바스찬 주니어 3세
89% đã tham gia
Là người mới bắt đầu, tôi nghĩ đây là một khóa học tuyệt vời để bạn làm quen với các khái niệm tổng thể về Pandas và tìm hiểu chi tiết cách sử dụng nó trong phân tích thực tế. Tôi đã tham gia một số bài giảng liên quan đến Pandas, nhưng tôi nghĩ đây là bài duy nhất giải thích rõ ràng từng chi tiết. Sau khi xem xét lại, tôi dự định áp dụng nó vào dữ liệu công việc thực tế và phân tích nó. Cảm ơn bạn rất nhiều vì đã tạo ra một khóa học tuyệt vời!!
5.0
pooh9431
37% đã tham gia
Đó là một giáo trình hay. Ngay cả một người mới bắt đầu như tôi cũng có thể nhìn thấy nguyên tắc hoạt động và kết quả, và hơn hết, tôi rất thích phần hỏi đáp. Nếu tôi không biết điều gì, anh ấy trả lời ngay câu hỏi như thể tôi đang hỏi giáo viên, và bước sóng giọng nói của giáo viên tốt đến mức tôi có thể tập trung tốt.
Bạn sẽ nhận được điều này sau khi học.
Các tính năng cốt lõi từ Pandas Cheat Sheet
Phân tích dữ liệu bằng Python
Tiền xử lý dữ liệu cho Machine Learning và Deep Learning
Trực quan hóa dữ liệu
Thu thập dữ liệu (crawling), tiền xử lý, phân tích và trực quan hóa trang web COVID-19 của thành phố Seoul bằng Pandas.
Phân tích dữ liệu với Python Pandas, nắm trọn cốt lõi trong một lần!
Chỉ với hai trang tài liệu, bạn có thể giải quyết việc phân tích dữ liệu Pandas sao?
Có một thư viện có thể sử dụng các chức năng tương tự như Excel trong Python là Pandas.
Xử lý dữ liệu quy mô lớn mà Excel không thể gánh vác nổi cũng đều OK.
Pandas là thư viện phân tích dữ liệu bằng Python dùng để phân tích và tiền xử lý dữ liệu.
Khi thực hiện phân tích, tiền xử lý hoặc trực quan hóa dữ liệu bằng Python Pandas, chúng ta thường chủ yếu sử dụng các chức năng chính. Và có một bản Cheat Sheet tóm tắt chính xác những chức năng cốt lõi này chỉ trong vỏn vẹn hai trang.
Tuy nhiên, nếu bạn tự mình xem tờ bí kíp (cheat sheet) chỉ tóm tắt những nội dung cốt lõi này, bạn có thể cảm thấy mông lung không biết nên thực hành nội dung nào và như thế nào. Trong khóa học này, chúng tôi sẽ trích lọc và giải thích những nội dung trọng tâm của cheat sheet, sau đó hướng dẫn bạn cách sử dụng Pandas để thay thế cho Matplotlib phức tạp một cách dễ dàng. Bạn đã sẵn sàng cùng thử sức chưa?
Ai nên học khóa học này?
Những người muốn thực hiện tiền xử lý cần thiết cho phân tích dữ liệu và ML/DL
Những người đã từng bối rối khi không thể mở được tệp dữ liệu dung lượng lớn bằng Excel
Những người đang sử dụng Excel để phân tích dữ liệu nhưng cảm thấy mệt mỏi vì các công thức phức tạp
Những người đã thực hiện nhiều công thức khác nhau trong Excel nhưng tốc độ chậm nên đã phải làm thêm giờ
📣 Hãy kiểm tra kiến thức tiên quyết!
Bạn cần có kiến thức nền tảng về Python, Jupyter Notebook, Anaconda và khái niệm hàng/cột trong Excel.
Tập trung vào tài liệu chính thức một cách dễ dàng, nhanh chóng và chính xác.
Một là, sử dụng docstring trong Jupyter Notebook
Bạn không cần phải ghi nhớ quá nhiều phương thức. Vì các tính năng được sử dụng thường đã được quy định sẵn. Trong khóa học này, tôi sẽ hướng dẫn bạn cách thực hành bằng cách tra cứu tài liệu chính thức ngay trên Jupyter Notebook để bạn có thể tự học thông qua phần trợ giúp và tài liệu hướng dẫn.
Thứ hai, cách để trực quan hóa dữ liệu Pandas giỏi gấp 2 lần!
Bạn có biết loại biểu đồ nào là phù hợp cho từng loại dữ liệu không? Trong khóa học này, chúng ta sẽ tìm hiểu về sự khác biệt và cách sử dụng của biểu đồ cột, bảng phân phối tần suất, biểu đồ histogram và phân phối chuẩn. Ngoài ra, khóa học cũng hướng dẫn cách sử dụng các tùy chọn và phương pháp trực quan hóa dữ liệu đa dạng trong Python thông qua tài liệu chính thức của Pandas.
Bonus, cho đến cả trực quan hóa dữ liệu Series và DataFrame!
Cập nhật bổ sung! Dự án phân tích dữ liệu phù hợp hoàn hảo với thực tế.
Chúng tôi sẽ phân tích trang web tình hình dịch bệnh COVID-19 của Seoul bằng Pandas, từ thu thập dữ liệu (crawling) đến tiền xử lý, phân tích và trực quan hóa. Bạn có thể phân tích những nội dung đã học chỉ qua hai trang tài liệu bằng một dự án tương tự như trong công việc thực tế. (Phần 13)
Một là, trực tiếp phân tích các dữ liệu thường gặp trong cuộc sống hàng ngày thông qua tin tức.
Quận nào có số ca nhiễm mới cao nhất?
Bệnh viện nào đã điều trị cho nhiều bệnh nhân nhất?
Liệu có bệnh viện nào thường xuyên tiếp nhận bệnh nhân chuyển đến theo từng quận không?
Quận nào có số ca nhiễm nhập cảnh từ nước ngoài cao nhất?
Để tiền xử lý văn bản nhằm phân loại nhiều quốc gia thành các khu vực như Châu Âu, Nam Mỹ, v.v., chúng ta nên làm thế nào?
Số ca nhiễm nhập cảnh từ nước ngoài có sự khác biệt như thế nào theo từng tháng?
Thứ hai, hiểu và thực hành các phương pháp tiền xử lý dữ liệu thông qua Pandas.
Làm thế nào để lấy được năm, tháng, ngày, thứ và tuần từ dữ liệu ngày tháng dạng văn bản?
Làm thế nào để tính số ca nhiễm tích lũy từ dữ liệu tình hình ca nhiễm?
Sự khác biệt giữa groupby, crosstab, pivot và pivot_table là gì, và sử dụng chức năng nào thì phù hợp?
Thứ ba, hiểu cấu trúc dữ liệu của DataFrame và Series, sau đó xử lý chúng thành biểu mẫu phù hợp để phân tích.
Để vẽ biểu đồ bằng hàm plot của Pandas, hình dạng của DataFrame cần được tạo như thế nào?
Nếu bạn muốn thể hiện các giá trị bằng các màu sắc khác nhau tùy theo giá trị phân loại trên biểu đồ, bạn cần phải thay đổi khung dữ liệu (dataframe) như thế nào?
Có những cách nào để chuyển đổi một Series thành một DataFrame?
Ví dụ về phân tích & trực quan hóa Python, hãy tự mình kiểm tra trong bài giảng!
Nếu bạn tò mò về người chia sẻ kiến thức đã tạo ra bài giảng này? 👩💻
Phỏng vấn Người chia sẻ kiến thức Park Jo-eun X Inflearn
Khuyến nghị cho những người này
Khóa học này dành cho ai?
Những người muốn thực hiện tiền xử lý dữ liệu cần thiết cho phân tích dữ liệu, học máy (machine learning) và học sâu (deep learning) bằng Python.
Những ai từng bối rối khi không thể mở được tệp dữ liệu dung lượng lớn bằng Excel do lỗi không tải được tệp.
Những ai đang cảm thấy mệt mỏi với các công thức phức tạp trong Excel
Những người đã từng phải làm thêm giờ vì tốc độ xử lý chậm dù đã thiết lập nhiều công thức đa dạng trong Excel.
Thiết kế bài giảng và giảng viên khóa học Khoa học dữ liệu tại Boostcourse, Naver Connect Foundation
Đại học Quốc gia Seoul (Trường Đại học Chia sẻ Đổi mới Big Data), Viện Giáo dục Trọn đời Đại học Quốc gia Seoul, Học viện DX Đại học Yonsei, ABC Camp Đại học Hanshin, Cao học Đại học Hanyang, Đại học Quốc gia Chonnam,
Giảng dạy tại nhiều tổ chức giáo dục và doanh nghiệp như Hiệp hội Quản lý Hàn Quốc (KMA), Viện Nghiên cứu Quản lý Toàn cầu IGM, Samsung SDS Multicampus, Like Lion, Fast Campus, Modulabs, Trung tâm Ung thư Quốc gia, v.v.
Phân tích dữ liệu doanh nghiệp thuộc nhiều lĩnh vực khác nhau (dược phẩm, viễn thông, ô tô, thương mại điện tử, giáo dục, cơ quan chính phủ, v.v.)
Hơn 20 năm kinh nghiệm làm việc thực tế với tư cách là nhà phát triển Web Backend và nhà phân tích dữ liệu trong nhiều lĩnh vực khác nhau như trò chơi, quảng cáo và giáo dục.
Là người mới bắt đầu, tôi nghĩ đây là một khóa học tuyệt vời để bạn làm quen với các khái niệm tổng thể về Pandas và tìm hiểu chi tiết cách sử dụng nó trong phân tích thực tế. Tôi đã tham gia một số bài giảng liên quan đến Pandas, nhưng tôi nghĩ đây là bài duy nhất giải thích rõ ràng từng chi tiết. Sau khi xem xét lại, tôi dự định áp dụng nó vào dữ liệu công việc thực tế và phân tích nó. Cảm ơn bạn rất nhiều vì đã tạo ra một khóa học tuyệt vời!!
Nhìn chung, đó là một khóa học tốt. Tôi đã tự mình nghiên cứu Pandas và đăng ký tham gia khóa học này với mục đích học và ứng dụng Pandas nhiều lần.
Khóa học Pandas Cheat Sheet thực sự không tốt lắm. Nếu bạn là người mới làm quen với Pandas, mới làm quen với Python hoặc rất cơ bản thì điều này sẽ không giúp ích nhiều. Đối với một video trên YouTube thì không sao, nhưng đối với một bài giảng trả phí thì hơi thất vọng.
Bài giảng Phân tích Corona của Thành phố Seoul rất hay. Đó là một phần rất hữu ích đối với tôi, người đã nghiên cứu những điều cơ bản về Pandas, vì tôi có thể thực hành áp dụng Pandas để xử lý dữ liệu nhằm đạt được hình thức và kết quả mong muốn.
Và những lời khuyên trong quá trình thực hiện rất hữu ích. Tab Shift hay sau hàm? Bạn có thể thấy chuỗi dấu chấm bằng cách sử dụng... Có lẽ đây là một mẹo hay...
Tóm tắt một dòng: Không được khuyến khích cho những người mới làm quen với Pandas, nhưng rất khuyến khích cho những người có một số kiến thức về Pandas.
Sau khi tốt nghiệp Khoa Thống kê, tôi làm chuyên viên phân tích dữ liệu, sau đó nghỉ việc ở công ty và hiện đang học phân tích dữ liệu bằng Python qua bài giảng của Jo-eun Park. Tôi có thể theo dõi bài giảng một cách thích thú vì nó cung cấp thông tin dễ hiểu bằng cách sử dụng dữ liệu kịp thời thay vì dữ liệu ví dụ rõ ràng. Tôi cũng thích xem YouTube. Cảm ơn!
Đó là một giáo trình hay. Ngay cả một người mới bắt đầu như tôi cũng có thể nhìn thấy nguyên tắc hoạt động và kết quả, và hơn hết, tôi rất thích phần hỏi đáp. Nếu tôi không biết điều gì, anh ấy trả lời ngay câu hỏi như thể tôi đang hỏi giáo viên, và bước sóng giọng nói của giáo viên tốt đến mức tôi có thể tập trung tốt.