Inflearn brand logo image
Inflearn brand logo image
BEST
AI Development

/

Natural Language Processing

Phân tích văn bản tiếng Hàn và xử lý ngôn ngữ tự nhiên với Python cho mọi người

Phân tích văn bản tiếng Hàn và xử lý ngôn ngữ tự nhiên bằng Python Trực quan hóa Word Cloud, phân tích hình thái học, mô hình hóa chủ đề, phân cụm, phân tích độ tương đồng, túi từ và TF-IDF để vector hóa dữ liệu văn bản, phân loại văn bản bằng máy học và học sâu, phương pháp sử dụng Hugging Face

(4.8) 19 đánh giá

561 học viên

NLP
Text Mining
Machine Learning(ML)
data-clustering
Big Data

Dịch cái này sang tiếng Việt

  • Trực quan hóa đám mây từ

  • Phân tích hình thái học

  • Mô hình chủ đề

  • Phân cụm

  • Phân tích tương đồng

  • Túi từ và TF-IDF để vector hóa dữ liệu văn bản

  • Phân loại văn bản bằng Machine Learning và Deep Learning (RNN, LSTM)

  • Sử dụng BERT và koGPT2 thông qua Hugging Face

📚 Nhận thông tin chi tiết từ các tài liệu phức tạp với tính năng phân tích văn bản và xử lý ngôn ngữ tự nhiên!

  • 💻 Hiểu được bản chất của ngôn ngữ và học cách xử lý và phân tích dữ liệu văn bản hiệu quả.

  • 🚀 Tìm hiểu các công cụ NLP mạnh mẽ, xây dựng các kỹ năng thực tế trong lĩnh vực kinh doanh và tìm hiểu các kỹ thuật khai thác văn bản giúp bạn đưa ra quyết định hiệu quả hơn. 🛠 📊

  • 🗝 Tìm chìa khóa để chuyển đổi doanh nghiệp của bạn bằng phân tích văn bản Python. 💬 🔍

Tôi giới thiệu điều này cho những người này

📊 Người lập kế hoạch, Người tiếp thị, Người phân tích 🕵‍♂️

  • Phản hồi của khách hàng, FGI, câu hỏi, khiếu nại, phân tích định tính dữ liệu

  • Hiểu xu hướng thị trường thông qua đánh giá và phân tích sản phẩm trực tuyến

  • Giám sát thương hiệu thông qua nghiên cứu thị trường và phân tích phương tiện truyền thông xã hội của sản phẩm cạnh tranh

🔬 Nhà nghiên cứu 🧪

  • Hiểu các tương tác xã hội và hiện tượng văn hóa thông qua dữ liệu truyền thông xã hội

  • Trích xuất thông tin từ các bài nghiên cứu

  • Phân tích các bài báo, bài phát biểu, bằng sáng chế và tài liệu chính sách pháp lý mở rộng.

🎓 Học sinh 📚

  • Hoàn thành các dự án và bài tập văn bản

  • Phân tích các bài báo học thuật

  • Trau dồi kiến ​​thức dữ liệu thông qua việc khám phá thông tin dựa trên dữ liệu lớn văn bản

  • Bất kỳ ai muốn hiểu sâu hơn về văn bản và phát triển kỹ năng giải quyết vấn đề

Tìm hiểu về những điều này

Tiền xử lý văn bản

  • Biểu thức chính quy, Làm sạch văn bản


  • Mã hóa


  • Máy phân tích hình thái Hàn Quốc KoNLPy

  • Máy phân tích hình thái Hàn Quốc Pure Python PeCab

  • Trích xuất danh từ và

    Đánh dấu từ loại

  • Stemming và Lemmatization

  • Từ dừng

Hình ảnh đám mây từ

Vector hóa từ

  • Tính toán tần suất thuật ngữ

  • TF-IDF (Tần suất thuật ngữ-Tần suất tài liệu nghịch đảo)

  • Nhúng từ

Mô hình hóa chủ đề thông qua vector hóa từ

Mô hình hóa chủ đề, phân cụm và phân tích sự tương đồng

  • Phân bổ Dirichlet tiềm ẩn (LDA)

  • Phân tích ma trận không âm (NMF)

  • Phân cụm các tài liệu tương tự thông qua phân cụm tài liệu

  • Đề xuất tài liệu và tìm tài liệu tương tự thông qua phân tích điểm tương đồng

Mô hình hóa chủ đề NMF

Phân loại văn bản

  • Kỹ thuật phân loại văn bản sử dụng máy học

  • Phương pháp điều chỉnh siêu tham số để cải thiện hiệu suất học máy

  • Cách đo chất lượng phân loại

  • Phân loại dựa trên học sâu Tensorflow DNN, RNN, LSTM

Phân loại văn bản

Sự khác biệt giữa vector hóa văn bản và nhúng văn bản

  • Hiểu sự khác biệt giữa vector hóa và nhúng

  • Sử dụng máy chiếu nhúng

  • Sử dụng mô hình học sâu

  • Đo lường hiệu suất mô hình với TensorBoard

  • Phân loại và trực quan hóa văn bản bằng mô hình BERT

Đánh giá hiệu suất mô hình bằng TensorBoard

Nhúng hình ảnh máy chiếu

Khoảng cách từ thông qua máy chiếu nhúng

Hiểu cách sử dụng khuôn mặt ôm và các nhiệm vụ mô hình ngôn ngữ chính

  • Tạo ngôn ngữ tự nhiên

  • 📖 Tóm tắt tài liệu


  • 🌐 Bản dịch ngôn ngữ

  • Xu hướng phân tích văn bản mới nhất và ứng dụng thực tế

Cách sử dụng hướng dẫn chính thức của Hugging Face

Bạn sẽ hiểu và có thể làm tốt những gì sau khi tham dự bài giảng?

  • 📝 Mã hóa

    • Chia văn bản thành các từ, cụm từ, câu riêng lẻ, v.v.

  • 🏷 Đánh dấu từ loại

    • Tìm hiểu cách gắn thẻ cho mỗi mã thông báo (từ) bằng một loại từ (danh từ, động từ, v.v.) và loại bỏ các tiểu từ, dấu câu, v.v.


  • 📚 Mô hình hóa chủ đề, Phân cụm, Phân tích sự tương đồng

    • Trích xuất các chủ đề ẩn từ một tập hợp tài liệu.

    • Nhóm các văn bản tương tự lại với nhau. (phân cụm dữ liệu)

    • Tìm hoặc đề xuất văn bản tương tự.

  • 📊 Phân loại văn bản

    • Phân loại tài liệu thành các danh mục được xác định trước.

  • 😃 Phân tích tình cảm

    • Phân tích những cảm xúc tích cực, tiêu cực và trung tính trong văn bản.

  • 🔑 Trích xuất từ ​​khóa

    • Trích xuất các từ khóa hoặc cụm từ quan trọng từ văn bản.


Tài liệu thực hành - Có sẵn trong hai phiên bản: Thực hành và Thực thi

Tài liệu thực hành không cần nhập mã (*_input.ipynb)

Tài liệu thực hành có nhập mã (*_output.ipynb)

Bạn có thể làm theo bằng cách xem mã và thực hành bằng cách cung cấp tệp thực hành (*_input.ipynb) chỉ có phần giải thích mà không có mã và tệp thực hành (*_output.ipynb) bao gồm mã và phần giải thích. Bạn cũng có thể thực hành bằng cách xem phần giải thích mà không cần mã.

Dữ liệu lý thuyết

Cung cấp các slide giải thích nội dung cốt lõi của xử lý ngôn ngữ tự nhiên (NLP) trong hơn 200 trang

Hơn 200 trang slide

Đồng tác giả của Everyone's Korean Text Analysis

Ai đã tạo ra khóa học này

  • Đồng tác giả của cuốn sách Everyone's Korean Text Analysis with Python (Gilbut Publishing)

  • Các khóa học phân tích văn bản tiếng Hàn bằng Python được nhiều công ty và tổ chức giáo dục cung cấp

  • Hướng dẫn LangCon , hội nghị xử lý ngôn ngữ tự nhiên lớn nhất tại Hàn Quốc

  • MVP của Microsoft


Bạn tò mò về điều gì?
Hãy kiểm tra trước nhé!
🙋‍♀

H. Những người không chuyên ngành cũng có thể tham gia khóa học này không?

Nếu bạn hiểu ngữ pháp cơ bản của Python, bạn có thể dễ dàng theo học khóa học này ngay cả khi bạn không phải là chuyên gia, vì khóa học chủ yếu sử dụng trình phân tích hình thái, scikit-learn hoặc pandas API. Khóa học này dành cho những người muốn sử dụng phân tích văn bản trong nhiều lĩnh vực khác nhau. Công cụ này được tạo ra để các nhà lập kế hoạch, nhà tiếp thị, nhà phân tích và các nhà nghiên cứu không chuyên về CNTT sử dụng văn bản trong kinh doanh. Do đó, nó có thể không phù hợp với những người muốn tự phát triển các mô hình AI hoặc phân tích chúng bằng cách viết các công thức từ đầu.

H. Nó có giống với video sách Everyone's Text Analysis được phát hành trên YouTube không?

Phần lớn khóa học này bao gồm các cảnh quay mới được ghi lại. Các video được phát hành trên kênh YouTube có một số nội dung trùng lặp với Python, Pandas Basics và Classification Basics. Ngoài ra, nó còn đề cập đến mô hình chủ đề, phân cụ, phân tích điểm tương đồng, giảm chiều và sử dụng học sâu chi tiết hơn nhiều so với những gì có sẵn trên YouTube. Trước khi mua, hãy xem các video trên YouTube để xem nội dung học có đúng như bạn mong đợi hay không. => https://bit.ly/pytextbook-youtube

H. Nó có giống như trong sách không? Tôi có cần phải mua sách nữa không?

Có một số phần trùng lặp với nội dung của cuốn sách và một số phần thì không. Mô hình hóa chủ đề, phân cụ, v.v. được trình bày chi tiết hơn trong sách và không phải tất cả các ví dụ trong sách đều được đề cập.
Bạn có thể tham gia khóa học mà không cần sách. Cuốn sách này được khuyến khích cho những ai muốn sắp xếp lại văn bản của mình theo một hình thức có tổ chức hơn.

H. Cần có trình độ máy tính như thế nào để tham gia khóa học?

Bất kỳ máy tính cá nhân hoặc máy tính xách tay nào có ít nhất 8GB bộ nhớ và khoảng 20GB dung lượng lưu trữ còn lại đều có thể sử dụng được. Nếu hiệu suất máy tính của bạn thấp, bạn có thể thử luyện tập thông qua Google Colaboratory.

H. Nội dung của lớp học bao gồm những nội dung nào?

Bắt đầu với một ví dụ nhỏ về dữ liệu đánh giá thực phẩm, chúng tôi sẽ đề cập đến dữ liệu Câu hỏi thường gặp về Seoul 120, đánh giá mua sắm và dữ liệu chủ đề tin tức KLUE.
Chúng tôi bao gồm phân tích mã thông báo, phân tích hình thái, mô hình chủ đề, phân cụm, phân tích điểm tương đồng và học máy.
Chúng tôi sẽ hướng dẫn cách tận dụng các mô hình đã chia sẻ trước đó thông qua HuggingFace.

H. Nó có bao gồm toán học, xác suất hay thống kê không?

Thay vì học trực tiếp toán, xác suất và thống kê, chúng tôi sử dụng scikit-learn, pandas, tensorflow, pytorch và hugingface.

Những điều cần lưu ý trước khi tham gia lớp học

Tôi không khuyên những người này làm điều này. 🚫

  • 🙅‍♂ Bất kỳ ai muốn tìm hiểu các phép tính toán học và nguyên tắc của mô hình LLM và tạo mô hình LLM từ đầu

  • 🙅‍♂ Bất kỳ ai muốn phát triển các dịch vụ AI dựa trên LLM

Môi trường thực hành

  • Hệ điều hành và phiên bản (OS): Bất kỳ hệ điều hành nào cũng được miễn là Python được cài đặt và Jupyter hoặc Colab được sử dụng.

  • Công cụ sử dụng: Jupyter hoặc Google Colab.

  • Thông số kỹ thuật của PC: Nếu bạn có ít nhất 8G RAM và 20G dung lượng lưu trữ trống, bạn có thể dễ dàng tham gia khóa học.

Tài liệu học tập

  • Chúng tôi cung cấp liên kết đến các bài tập thực hành thông qua các tệp sổ tay colab và Jupyter.

  • Chúng tôi cung cấp hai tệp, một tệp có mô tả và mã, một tệp chỉ có mô tả để bạn có thể thực hành trực tiếp.

Vui lòng nghe trước một số lớp học được phát hành qua Inflearn Preview hoặc Kênh YouTube rồi sau đó quyết định có nên tham gia lớp học hay không.

Bạn có thể xem trước một số lớp học trước khi tham gia. Hãy chắc chắn rằng đây là lộ trình học tập mà bạn mong muốn. ( => https://bit.ly/pytextbook-youtube ) Nếu bạn có bất kỳ câu hỏi nào khác, vui lòng hỏi họ qua mục yêu cầu trước khi tham gia lớp học. Ngoài nội dung trên YouTube, lớp học còn đề cập đến nhiều nhiệm vụ và cách sử dụng học sâu rộng hơn. Nội dung này đề cập chi tiết hơn đến những vấn đề không có trên YouTube.

Kiến thức và ghi chú của người chơi

  • Cần phải hiểu cú pháp Python cơ bản.

  • Bạn nên biết cách sử dụng Jupyter hoặc Google Colaboratory.


Khuyến nghị cho
những người này!

Khóa học này dành cho ai?

  • Chuyên gia kinh doanh cần phân tích văn bản

  • Những nhà nghiên cứu cần mô hình chủ đề hoặc phân tích tương đồng trong nghiên cứu và luận văn

  • Một học sinh muốn thực hiện dự án phân tích văn bản

  • Sinh viên chuẩn bị tìm việc muốn tạo portfolio phân tích văn bản

Cần biết trước khi bắt đầu?

  • Cú pháp cơ bản của Python

  • Hướng dẫn sử dụng Jupyter hoặc Google Colab

Xin chào
Đây là

18,692

Học viên

780

Đánh giá

1,330

Trả lời

4.8

Xếp hạng

6

Các khóa học

  • Microsoft MVP(Python Developer Technologies)

  • 오늘코드 YouTube 📺 https://youtube.com/todaycode

  • “모두가 데이터에 친숙해지는 날이 오길”– 마이크로소프트웨어 (링크)

  • 네이버 커넥트 재단 부스트코스 데이터사이언스 강의 설계 및 교수자

  • 서울대 빅데이터혁신공유대학, 서울대 평생교육원, 연세대 DX Academy, 한신대 ABC Camp, 한양대 대학원, 전남대,

    한국능률협회, 삼성SDS 멀티캠퍼스, 멋쟁이사자처럼, 패스트캠퍼스, 모두의연구소 등 다수의 교육기관 및 기업 강의

  • 다양한 도메인(제약, 통신, 자동차, 커머스, 교육, 정부기관 등)의 기업 데이터 분석

  • 20년이상 게임, 광고, 교육 등 다양한 도메인에서 웹 백엔드 개발자 및 데이터 분석가 현업 경험

Chương trình giảng dạy

Tất cả

53 bài giảng ∙ (18giờ 6phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

19 đánh giá

4.8

19 đánh giá

  • 런던베이글님의 프로필 이미지
    런던베이글

    Đánh giá 7

    Đánh giá trung bình 5.0

    5

    100% đã tham gia

    네이버 부스트코스에서 박조은강사님 강좌 수강이후에 - 파이토치, 텐서플로우 기본 학습하고 이어서 진행했습니다. 비전공자가 듣기 쉽고 좋으며 90%이상 프로젝트실습 위주여서 추천드립니다... 어렵게 학습했던 딥러닝에 대해서 개념을 쉽게 다시 이해하기에도 좋았습니다. 유튜브에서 진행 하시는 마케팅분석도 강의로 제공해주시면 좋을거같습니다

    • iklee님의 프로필 이미지
      iklee

      Đánh giá 1

      Đánh giá trung bình 5.0

      5

      60% đã tham gia

      • 임지수님의 프로필 이미지
        임지수

        Đánh giá 1

        Đánh giá trung bình 5.0

        5

        100% đã tham gia

        좋은 내용 잘 들었습니다.

        • 이재성님의 프로필 이미지
          이재성

          Đánh giá 1

          Đánh giá trung bình 5.0

          5

          100% đã tham gia

          • 이재권님의 프로필 이미지
            이재권

            Đánh giá 3

            Đánh giá trung bình 4.0

            4

            100% đã tham gia

            좋은 강의 감사합니다

            Khóa học khác của todaycode

            Hãy khám phá các khóa học khác của giảng viên!