실전 데이터 사이언스 Part2. 데이터 전처리
김화종
현업 실전에서 데이터 탐색 (EDA), 데이터 클리닝, 스케일링, 이상치 처리, 로그변환, 카테고리 인코딩 등이 왜 필요한지 그리고 어떻게 다루어야 하는지를 배웁니다. 또한 테이블 데이터 합치기, (비정형) 시계열 데이터 처리 방법을 배웁니다.
初級
Python
Quá trình chuyển đổi kỹ thuật số (DT) và giới thiệu trí tuệ nhân tạo (AI) của một công ty bắt đầu bằng việc xây dựng mô hình học máy. Tuy nhiên, phạm vi của công nghệ học máy rất rộng và việc lựa chọn phương pháp tối ưu đòi hỏi sự hiểu biết rõ ràng về các khái niệm cơ bản. Bài giảng này giới thiệu những nội dung cốt lõi cần thiết để hiểu rõ các khái niệm cơ bản về machine learning thông qua 5 ví dụ.
Hiểu các nguyên tắc cơ bản về học máy là gì và cách thức hoạt động của nó.
Hiểu cách triển khai các mô hình học máy bằng Python và các chỉ báo hiệu suất khác nhau để đánh giá hiệu suất của mô hình.
Hiểu sự khác biệt giữa phân tích thống kê truyền thống và học máy, đồng thời tìm hiểu các kỹ thuật thống kê chính như phân phối xác suất, kiểm tra tính độc lập và kiểm tra chi bình phương thông qua các ví dụ.
Chỉ chứa những nội dung thiết yếu!
Hiểu các nguyên tắc cơ bản của học máy để xây dựng mô hình
Học máy là phần mềm thực hiện các nhiệm vụ như dự đoán số liệu (hồi quy), phân loại danh mục và đưa ra khuyến nghị tối ưu. Học máy là phần mềm dần dần cải thiện hiệu suất bằng cách quan sát và học hỏi từ dữ liệu.
Học máy hiện là phương pháp phổ biến nhất để triển khai trí tuệ nhân tạo. Chức năng cốt lõi của học máy là tạo ra một "mô hình" học máy có thể thực hiện các hành động thông minh .
Nó đề cập đến phần mềm có thể thu được đầu ra tối ưu (y) từ dữ liệu đầu vào (X) và đầu ra tối ưu có nghĩa là dự đoán tốt câu trả lời đúng (nhãn, mục tiêu).
Các loại mô hình bao gồm mô hình tuyến tính, hồi quy logistic, máy vectơ hỗ trợ (SVM), cây quyết định, rừng ngẫu nhiên, k-NN, mô hình Bayesian và mô hình học sâu (MLP, CNN và RNN). Mặc dù bài giảng này không đề cập cụ thể đến các thuật toán này, nhưng nó sẽ hướng dẫn bạn những phương pháp cơ bản và phổ biến để triển khai các mô hình học máy bằng mô hình tuyến tính. Đặc điểm của từng mô hình sẽ được đề cập trong các bài giảng khác.
Để triển khai mô hình tối ưu, bạn phải chuẩn bị dữ liệu đào tạo cần thiết để đào tạo mô hình và dữ liệu xác thực cần thiết để xác minh hoạt động của mô hình đã đào tạo.
Quá trình tạo dữ liệu đào tạo và xác thực phù hợp từ dữ liệu thô được gọi là tiền xử lý dữ liệu và tiền xử lý dữ liệu ảnh hưởng rất lớn đến hiệu suất của các mô hình học máy.
Mục đích của việc sử dụng các mô hình học máy được chia thành bốn loại:
Tìm hiểu tổng quan về học máy và khám phá các khái niệm chính để hiểu về học máy thông qua năm ví dụ.
Đầu tiên, bạn sẽ học cách triển khai, đào tạo và xác thực các mô hình hồi quy, cũng như các số liệu đánh giá hiệu suất mô hình như R-squared, MAE và RMSE.
Tiếp theo, chúng ta sẽ tìm hiểu cách triển khai mô hình phân loại, cũng như các khái niệm về ranh giới quyết định, ma trận nhầm lẫn, độ chính xác, độ chính xác, độ thu hồi và điểm số f-1. Việc đánh giá hiệu suất phân loại đòi hỏi sự hiểu biết rõ ràng về ma trận nhầm lẫn, mà chúng tôi sẽ giải thích chi tiết thông qua các ví dụ.
Để đánh giá toàn diện hiệu suất của một mô hình phân loại, cần phải đánh giá thứ hạng dự đoán. Vì mục đích này, chúng tôi sẽ giải thích cách sử dụng đường cong ROC-AUC và đường cong độ chính xác-thu hồi.
Trong các ứng dụng thực tế, các mô hình phân loại thường có yêu cầu về độ chính xác hoặc độ thu hồi tối thiểu, đòi hỏi phải lựa chọn ngưỡng phân loại tối ưu đáp ứng các yêu cầu này. Bài viết này trình bày chi tiết cách tìm ngưỡng tối ưu bằng đường cong Độ chính xác-Độ thu hồi.
Học máy Trong khi học hầu hết Tò mò điều ở giữa Một Với phân tích thống kê Sự khác biệt Hiểu biết Phân tích thống kê được chia thành thống kê mô tả, ước tính và kiểm định giả thuyết.
Thống kê tập trung vào việc giải thích nền tảng lý thuyết, xử lý các giả thuyết, xác suất, khoảng tin cậy và biên độ sai số. Ngược lại, học máy tập trung vào việc tạo ra các mô hình phần mềm vượt trội về dự đoán và phân loại, thay vì cung cấp nền tảng lý thuyết.
Nếu dữ liệu cần phân tích nhỏ, cần phải dựa vào phân tích thống kê để giải thích, ước tính, kiểm định giả thuyết, v.v. Tuy nhiên, nếu dữ liệu đủ lớn, việc tạo ra một mô hình học máy có thể sử dụng trong thực tế sẽ hữu ích hơn.
Bài giảng này giới thiệu những kiến thức cơ bản về phân tích thống kê, bao gồm các đặc điểm của phân phối chuẩn. Để tham khảo, phân phối chuẩn là hàm phân phối xác suất của các mẫu tích lũy hội tụ và không còn thay đổi (xem hình bên dưới).
Khóa học này dành cho ai?
Những người lần đầu tiên tìm hiểu nguyên lý hoạt động của machine learning
Điều này sẽ hữu ích cho những người cần áp dụng machine learning vào công việc của mình nhưng khó đầu tư nhiều thời gian và những người muốn tìm hiểu cốt lõi của machine learning trong một khoảng thời gian ngắn.
Cần biết trước khi bắt đầu?
Cần có kiến thức cơ bản về Python.
919
Học viên
77
Đánh giá
11
Trả lời
4.8
Xếp hạng
3
Các khóa học
"고장난 라디오 고칠 수 있어?"
제가 전자공학과에 입학한 후 친구로부터 받은 질문입니다. 뭐, 대답은 했습니다. "전자공학과에서는 라디오 만드는 원리를 배우는 것이지 고장난 전자제품 고치는 것은 우리 일이 아니고..."
이론으로 무장한 전문가보다 문제 해결사가 필요한 경우가 더 많습니다. 저는 실전 문제 해결이 더 중요하다고 생각합니다.
최근에는 머신러닝으로 금융, 에너지, 전자, 중장비, 물류, 신약개발, 식품 등 산업 영역의 문제를 해결하는 일을 하고 있는데, 정말 배울 것도 많고 할 일도 무궁무진한 영역인 것 같습니다. 본업은 교수지만 (강원대 컴퓨터공학과), 현장의 문제해결에 관심이 많아 여러 겸직을 하고 있습니다. AI신약개발지원센터장, KAIST 겸임교수, 그리고 데이터사이언스랩 대표를 맡고 있습니다.
AI 시대에 가장 필요한 인재는 실전 문제를 해결할 수 있는 데이터 사이언티스트라고 믿으며 여러분 모두 인기 있는 데이터 사이언티스트가 되기를 바랍니다.
Tất cả
20 bài giảng ∙ (4giờ 45phút)
Tất cả
31 đánh giá
4.7
31 đánh giá
1.405.028 ₫
Hãy khám phá các khóa học khác của giảng viên!
Khám phá các khóa học khác trong cùng lĩnh vực!