강의

멘토링

로드맵

Inflearn brand logo image
AI Development

/

Deep Learning & Machine Learning

Bài giảng Python miễn phí (Sử dụng 7) - Học máy

Cuối cùng nó cũng ra rồi. Khóa học máy học dễ nhất thế giới Nó miễn phí, vậy bạn còn chờ gì nữa? Nào 'Học' Hãy thử nhấn nút nhiều lần

(4.9) 53 đánh giá

2,321 học viên

  • nadocoding
머신러닝
인공지능
파이썬
machinelearning
사이킷런
Machine Learning(ML)
Scikit-Learn
Python
Anaconda
Thumbnail

Đánh giá từ những học viên đầu tiên

Dịch cái này sang tiếng Việt

  • Cách sử dụng Scikit-learn, một gói thiết yếu cho việc học máy Python

  • Các thuật toán học máy chính của học có giám sát và học không giám sát

  • Làm cách nào để tạo Netflix? Dự án hệ thống đề xuất phim

  • Phân tích văn bản là một phần thưởng!

Với Học máy Python
Tạo hệ thống đề xuất phim! 🎞️

Hướng dẫn từng bước, từ lý thuyết đến thực hành về máy học! 🖥️

Bạn có lẽ đã nghe nói về học máy rồi phải không? Học máy là một nhánh của trí tuệ nhân tạo, được gọi trong tiếng Hàn là " học máy ". Với dữ liệu chất lượng cao, hệ thống sẽ học hỏi từ dữ liệu đó và tạo ra một mô hình . Sử dụng mô hình này, hệ thống dự đoán kết quả đầu ra từ các đầu vào mới - nói cách khác, về cơ bản là tạo ra một hàm.

Nhân tiện, đây không phải là tất cả :)

Bạn không bao giờ có thể trải nghiệm hết tất cả các trò chơi tại một công viên giải trí lớn chỉ trong một ngày. Nhưng một khi đã ghé thăm, bạn sẽ có cái nhìn tổng quan về diện mạo của công viên, vị trí các trò chơi và những trò chơi nào nên ưu tiên cho lần ghé thăm tiếp theo.

Tôi hy vọng bạn sẽ học bài giảng của tôi như thể bạn đang lần đầu tiên đến công viên giải trí. Mặc dù rất khó để hiểu hết mọi thứ về học máy, nhưng bạn sẽ hiểu được nó là gì, những điều bạn cần cân nhắc khi học, và những điều bạn có thể muốn tìm hiểu thêm. Sau đó, bạn sẽ có thể tiến xa hơn một bước và xây dựng hiểu biết sâu sắc hơn thông qua nhiều nguồn tài liệu khác nhau. Hãy cùng bắt đầu nào.


Học cái này 📑

1) Học lý thuyết vững chắc

Sau đây là một số điểm được nêu rõ.

Nếu bạn phải tìm một đường thẳng thể hiện tốt nhất những điểm này, đó sẽ là đường thẳng nào?

Đúng rồi! Số 3 đấy. Sao bạn lại nghĩ thế? Đúng rồi. Chỉ là trông có vẻ vậy thôi, đúng không?

Chúng ta vừa trải nghiệm quá trình máy học tự xây dựng mô hình. Khi mô hình này (trong trường hợp này là một đường thẳng) được tạo ra, chúng ta có thể đưa ra dự đoán .

Nếu biểu đồ này biểu diễn dữ liệu giá kim cương theo carat, với carat trên trục x và giá trên trục y, bạn có thể ước tính sơ bộ giá của một viên kim cương 1,7 carat mới. Việc đưa ra dự đoán bằng cách sử dụng dữ liệu số liên tục như thế này được gọi là mô hình hồi quy .

Các mô hình hồi quy đôi khi có thể trở nên phức tạp hơn. Ví dụ, nếu bạn đang cố gắng dự đoán điểm kiểm tra dựa trên thời gian học, thì thời gian học không nhất thiết là yếu tố duy nhất ảnh hưởng đến điểm số, phải không? Các yếu tố ảnh hưởng đến điểm kiểm tra này được gọi là các biến độc lập , và kết quả thu được được gọi là biến phụ thuộc . Khi số lượng biến độc lập tăng lên, một dạng mô hình hồi quy tuyến tính bội phức tạp hơn trở nên cần thiết. Hãy hình dung điều này như đồ thị trở nên phức tạp hơn khi số chiều tăng lên.

Trong những tháng hè nóng nực, việc sử dụng điều hòa trong thời gian dài rất đáng sợ. Hóa đơn tiền điện gia đình được tính theo biểu giá lũy tiến, vì vậy ngay cả sau một thời gian ngắn sử dụng, hóa đơn tiền điện có thể tăng vọt, đôi khi vượt quá hàng trăm nghìn won. Trong trường hợp y thay đổi nhanh chóng do x thay đổi, chẳng hạn như dữ liệu tăng đột biến tùy thuộc vào biểu giá lũy tiến, rất khó để biểu diễn chúng bằng một đường thẳng duy nhất. Trong những trường hợp này, có thể sử dụng mô hình hồi quy đa thức .

Khi bạn có hai mô hình để biểu diễn dữ liệu của các chấm xanh, đường cong màu cam sẽ tốt hơn nhiều so với đường cong màu xanh thẳng!

Nhưng làm sao chúng ta có thể chắc chắn rằng những mô hình dự đoán này thực sự hoạt động tốt? Vì vậy, sau khi xây dựng một mô hình, hiệu suất của nó phải được đánh giá. Để làm điều này, toàn bộ tập dữ liệu được chia thành hai phần: một phần để huấn luyện và một phần để kiểm tra. Thông thường, tỷ lệ chia là 80:20, huấn luyện chỉ được thực hiện trên tập huấn luyện, và mô hình sau đó được xác thực trên tập kiểm tra. Trong một số trường hợp, hai tập dữ liệu được trộn lẫn để xác thực.

Trong quá trình này, nếu mô hình dự đoán rất tốt trên tập huấn luyện nhưng lại kém trên tập kiểm tra, thì được gọi là overfitting . Nếu mô hình dự đoán kém ngay cả trên tập huấn luyện, thì được gọi là underfitting . Khi xây dựng mô hình, điều quan trọng là tránh overfitting hoặc underfitting.

Một đứa trẻ đang cố gắng áp dụng dữ liệu của bà ngoại một cách quá mức
Tôi đã thấy một thứ gì đó, nhưng thiếu 2%.

Ngoài dữ liệu liên tục, còn có dữ liệu phân loại. Dữ liệu này liên quan đến phân loại , chứ không phải hồi quy . Thay vì điểm kiểm tra dựa trên thời gian học, hãy xem xét dữ liệu phân loại, trong trường hợp này, được phân loại thành đạt/không đạt, dựa trên kỳ thi chứng chỉ. Vì vậy, nếu bạn có dữ liệu cho thấy một người học bốn giờ trượt và một người học sáu giờ đỗ, bạn sẽ phân loại những người học bảy giờ là đạt hoặc không đạt.

Một thuật toán phân loại tiêu biểu trong học máy là hồi quy logistic . Tuy được gọi là hồi quy, nhưng thực chất nó là một mô hình được sử dụng để phân loại, và các mô hình phân loại có thể điều chỉnh tiêu chí khi cần thiết. Ví dụ, ngay cả khi mô hình nói rằng "Bạn sẽ đậu nếu học bốn giờ", chúng ta vẫn có thể áp dụng một cách tiếp cận thận trọng hơn và nói rằng "Bạn sẽ cần học sáu giờ".

Nội dung được giải thích cho đến nay thuộc về loại học máy có giám sát . Tuy nhiên, cũng có học không giám sát, loại học này không cung cấp câu trả lời đúng. Học không giám sát liên quan đến việc máy móc khám phá các mẫu hoặc cấu trúc có ý nghĩa trong dữ liệu. Phân cụm, tức là nhóm dữ liệu thể hiện các mẫu tương tự lại với nhau, là một ví dụ về phân cụm. Việc chia các bài báo thành các danh mục như khoa học/công nghệ, thể thao và sức khỏe là một ví dụ về phân cụm.

Một thuật toán phân cụm tiêu biểu là K-means . Hãy tưởng tượng bạn đang hái táo từ một vườn cây ăn quả và chia chúng ra để bán. Cách tốt nhất để làm điều đó là gì? Bạn có thể chia chúng thành hai nhóm: lớn và nhỏ. Hoặc bạn có thể chia chúng thành ba nhóm: lớn, vừa và nhỏ. Hoặc bạn có thể phân loại chúng thành nhóm đẹp và nhóm xấu, bán những quả xấu với giá thấp hơn.

Ở đây, K là số nhóm . Nếu bạn đang phân cụm một lượng lớn dữ liệu phức tạp, không chỉ là táo, việc xác định một con số có thể rất khó khăn. May mắn thay, có một phương pháp có thể được tham khảo để tìm K tối ưu. Phương pháp này được gọi là phương pháp khuỷu tay vì nó có hình dạng giống khuỷu tay. Nói một cách đơn giản, phương pháp này tính toán khoảng cách trung bình từ mỗi dữ liệu đến tâm của mỗi cụm (nhóm) theo sự thay đổi của K, và xem xét điểm mà độ dốc trên đồ thị bắt đầu trở nên thoai thoải theo K.

Khi K được xác định, chúng ta có thể thu được kết quả được chia thành K cụm (nhóm) từ dữ liệu phân tán ngẫu nhiên, như minh họa bên dưới. Nếu ví dụ này hiển thị điểm số dựa trên thời gian học, chúng ta có thể đề xuất các chiến lược học tập khác nhau cho học sinh trong mỗi nhóm.

2) Thực hành và kiểm tra

Những kiến thức cơ bản về học máy được đề cập ở trên sẽ được trình bày thông qua các giải thích lý thuyết chi tiết và bài tập thực hành. Cuối cùng, bạn sẽ được làm bài kiểm tra để ôn tập lại những kiến thức đã học.

Bài kiểm tra chỉ cung cấp cho bạn một tập dữ liệu và bảy nhiệm vụ nhỏ để hoàn thành bằng cách sử dụng dữ liệu đó. Nếu bạn đã học kỹ những kiến thức cơ bản, bạn sẽ có thể xử lý được. Và việc tự mình giải bài kiểm tra đồng nghĩa với việc bạn có thể phân tách dữ liệu, học hỏi từ tập huấn luyện, trực quan hóa dữ liệu và thậm chí thực hiện đánh giá và dự đoán. Tuyệt vời phải không? 😃

Giờ bạn đã hoàn thành bài kiểm tra, đã đến lúc áp dụng nó! Cũng như tất cả các bài giảng hướng ứng dụng khác, khóa học học máy này cũng sẽ bao gồm một dự án. Chủ đề dự án là một hệ thống đề xuất phim . Sử dụng bộ dữ liệu khoảng 5.000 phim, bạn sẽ phân tích và học cách chọn 10 phim được đề xuất. Có một số phương pháp đề xuất, nhưng chúng tôi sẽ trình bày ngắn gọn về ba phương pháp sau.

1. Đề xuất một bộ phim mà nhiều người thích
2. Đề xuất những bộ phim rất giống với một bộ phim cụ thể.
3. Đề xuất tùy chỉnh dựa trên sở thích phim của từng cá nhân

Trong khóa học này, bạn cũng sẽ tìm hiểu đôi chút về các phương pháp phân tích văn bản. Và vì chỉ nhìn vào mã code thôi cũng đã đủ nhàm chán, chúng ta sẽ xây dựng hệ thống đề xuất phim của riêng mình bằng Streamlit, một gói phần mềm cho phép bạn tạo ra các trang web đẹp mắt chỉ với vài dòng mã. Tại đây, khi bạn chọn một bộ phim, nó sẽ đề xuất 10 phim dựa trên các thông tin như thể loại, đạo diễn và diễn viên, rồi hiển thị một poster phim Hàn Quốc. Nghe khá hay phải không?

Đặc biệt, đề xuất cá nhân hóa cuối cùng dựa trên sở thích phim ảnh của từng người sử dụng gói sản phẩm mang tên "Bất Ngờ". Dựa trên dữ liệu lịch sử bán hàng được tích lũy cho đến nay, nó có thể giúp ích rất nhiều trong việc phát triển các chiến lược như nên giới thiệu sản phẩm nào cho từng khách hàng, và mặt hàng nào sẽ bán chạy hơn nếu bán theo bộ.

Hình ảnh, Video của pixabay, pexels
: https://www.pixabay.com
: https://www.pexels.com

Được thiết kế bởi freepik, flaticon
: https://www.freepik.com
: https://www.flaticon.com


Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Những người nhận thấy việc học máy khó khăn

  • Dành cho những người cần một lời giải thích thực sự dễ dàng và chi tiết

  • Những người muốn hoàn thiện kiến ​​thức bằng những dự án thực tế vượt xa lý thuyết

Cần biết trước khi bắt đầu?

  • Cú pháp cơ bản của Python

  • Cách sử dụng cơ bản của Jupyter Notebook

Xin chào
Đây là

100,725

Học viên

3,146

Đánh giá

915

Trả lời

4.9

Xếp hạng

11

Các khóa học

유튜브에서 코딩 교육 채널을 운영하고 있는 나도코딩입니다.
누구나 쉽고 재미있게 코딩을 공부하실 수 있도록 친절한 설명과 쉬운 예제로 강의합니다.
코딩, 함께 하실래요? 😊

🧡 유튜브 나도코딩
🎁 코딩 자율학습 나도코딩의 파이썬 입문
📚 코딩 자율학습 나도코딩의 C 언어 입문

Chương trình giảng dạy

Tất cả

51 bài giảng ∙ (6giờ 41phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

53 đánh giá

4.9

53 đánh giá

  • devkuka님의 프로필 이미지
    devkuka

    Đánh giá 286

    Đánh giá trung bình 5.0

    5

    24% đã tham gia

    Oh, I didn't know there was such a great lecture.. Thank you so much~!!

    • uza03038054님의 프로필 이미지
      uza03038054

      Đánh giá 1

      Đánh giá trung bình 5.0

      5

      31% đã tham gia

      • andrewna04126085님의 프로필 이미지
        andrewna04126085

        Đánh giá 1

        Đánh giá trung bình 5.0

        5

        31% đã tham gia

        • unicon01027533님의 프로필 이미지
          unicon01027533

          Đánh giá 1

          Đánh giá trung bình 3.0

          3

          31% đã tham gia

          • hjlee5630님의 프로필 이미지
            hjlee5630

            Đánh giá 1

            Đánh giá trung bình 5.0

            5

            31% đã tham gia

            Miễn phí

            Khóa học khác của nadocoding

            Hãy khám phá các khóa học khác của giảng viên!

            Khóa học tương tự

            Khám phá các khóa học khác trong cùng lĩnh vực!