inflearn logo

[Phần cơ bản 2] OpenClaw.AI Master Class: Trợ lý từ xa trên điện thoại thông minh hoàn thiện với Telegram và Vision AI

Đây là khóa học nhập môn về quy trình làm việc của trợ lý AI di động với tính năng thị giác máy tính: khi bạn gửi ảnh hóa đơn qua Telegram trên điện thoại, OpenClaw và Gemini 2.5 Flash sẽ tự động phân tích, sau đó sắp xếp và lưu trữ vào workspace trên máy tính của bạn.

5 học viên đang tham gia khóa học này

Độ khó Cơ bản

Thời gian Không giới hạn

Business Productivity
Business Productivity
telegram-bot
telegram-bot
gemini
gemini
AI Agent
AI Agent
openclaw
openclaw
Business Productivity
Business Productivity
telegram-bot
telegram-bot
gemini
gemini
AI Agent
AI Agent
openclaw
openclaw

Bạn sẽ nhận được điều này sau khi học.

  • Cách tạo bot của riêng bạn bằng Telegram BotFather và cách kết nối an toàn với cổng OpenClaw

  • Cách thiết lập tác nhân đa phương thức (multimodal agent) hiểu đồng thời cả văn bản và hình ảnh bằng cách kết nối mô hình thị giác Gemini 2.5 Flash với OpenClaw.

  • Triển khai toàn bộ quy trình: Gửi ảnh hóa đơn chụp từ điện thoại qua Telegram → Phân tích bằng AI → Tự động lưu vào thư mục workspace/expenses

  • Cách thiết kế quy tắc hành động cho agent để khi nhận được hình ảnh hóa đơn, nó sẽ tự động phân tích, lưu trữ và tóm tắt bằng cách tùy chỉnh quy tắc trong file AGENTS.md.

“Chỉ cần chụp ảnh hóa đơn bằng điện thoại và gửi đi, trợ lý từ xa trên Telegram sẽ tự động phân tích và sắp xếp quy trình tự động hóa hoàn toàn mà bạn có thể tự mình xây dựng bằng OpenClaw.”

Sẽ thế nào nếu bạn có một trợ lý riêng giúp phân tích và sắp xếp mọi thứ chỉ bằng cách gửi "một bức ảnh hóa đơn" ngay cả khi đang ở ngoài nhà, tại quán cà phê hay trên tàu điện ngầm? Giờ đây, ngay cả khi không mở máy tính xách tay, đại lý AI của riêng bạn trong Telegram sẽ thay bạn chăm sóc sổ thu chi gia đình và hồ sơ công việc.

Trong khóa học này, chúng ta sẽ sử dụng OpenClaw và mô hình thị giác Gemini 2.5 Flash để trực tiếp tạo ra một trợ lý từ xa trên Telegram có thể gọi được từ điện thoại thông minh, đồng thời thiết lập quy trình tự động hóa hoàn toàn từ “Gửi ảnh → Tự động phân tích → Lưu vào thư mục expenses”.

Nếu bạn đã học Phần 1, bạn có thể tiếp tục thực hành một cách tự nhiên. Ngay cả khi chưa học Phần 1, chỉ cần bạn có thể truy cập OpenClaw trên trình duyệt, bạn vẫn có thể dễ dàng theo kịp thông qua bảng kiểm tra trước được cung cấp.

Ví dụ như,

- Người làm tự do chỉ cần vừa uống cà phê tại quán vừa gửi ảnh hóa đơn lên Telegram, khi về đến nhà đã có thể nhận được hồ sơ chi phí đã được sắp xếp theo ngày tháng và hạng mục.

- Chủ kinh doanh tự do dù có chụp và tải lên cả xấp hóa đơn doanh thu trong ngày, vẫn có thể nhận lại báo cáo định dạng Markdown được sắp xếp theo tháng và theo từng hạng mục.

- Nhân viên văn phòng có thể tải tất cả hóa đơn ăn trưa, cà phê, taxi lên cùng lúc khi đang trên tàu điện ngầm đường về nhà,kiểm tra báo cáo tóm tắt chi tiêu trong ngày khi vừa về đến nhà.

🔥 Điểm khác biệt cốt lõi của bài giảng này: Phải là một trợ lý AI an toàn.

Khóa học này không chỉ tập trung vào một “trợ lý AI chỉ biết hoạt động”, mà tập trung vào một trợ lý AI từ xa có thể vận hành một cách an toàn.

Thực hành OpenClaw được tiến hành hoàn toàn bên trong container Docker, giúp giới hạn phạm vi mà agent có thể tác động về mặt vật lý trong thư mục workspace .

Ngoài ra, ở cuối bài giảng, chúng ta sẽ cùng điểm qua các kịch bản rủi ro có thể xảy ra trong thực tế như rò rỉ token bot Telegram hay lộ thông tin cá nhân trong hóa đơn, v.v.

luôn bao gồm một “bài giảng đặc biệt về bảo mật” sử dụng danh sách trắng ALLOWED_CHAT_ID, Docker sandbox và cài đặt .gitignore,

“Cách sử dụng OpenClaw để bạn có thể yên tâm điều khiển từ xa khi ở ngoài nhà” đã được thiết kế để bạn có thể nắm vững đến cuối cùng.

- Vô điều kiện chỉ thực hành trong môi trường Docker, được thiết kế để ngay cả khi có sai sót hoặc bị tấn công, kẻ xấu cũng không thể tiếp cận toàn bộ hệ thống mà chỉ có thể truy cập vào các thư mục được chỉ định.

- Đây là một khóa học chuyên sâu về bảo mật OpenClaw hiếm hoi, bao quát tất cả từ quản lý token bot Telegram, ID chat cho đến bảo vệ dữ liệu hóa đơn (tên cửa hàng, số tiền, thông tin thẻ, v.v.).

- Trong phiên cuối cùng, sẽ có một phần đặc giảng về bảo mật để hệ thống lại toàn bộ nội dung, giúp bạn có thể áp dụng trực tiếp vào vận hành thực tế.

🎥 Video highlight

✨ Những gì bạn sẽ nhận được từ khóa học này

  • Bạn có thể gọi trực tiếp tác nhân OpenClaw từ Telegram trên điện thoại thông minh và xây dựng môi trường điều khiển từ xa để có thể truy vấn và kiểm tra trạng thái không gian làm việc ngay cả khi ở bên ngoài.



  • Kích hoạt tính năng thị giác của Gemini 2.5 Flash để tạo quy trình phân tích hình ảnh có khả năng tự nhận diện và trích xuất ngày tháng, tên cửa hàng, số tiền và danh mục từ ảnh chụp hóa đơn.



  • Bạn sẽ tự thiết kế và triển khai quy trình thư ký biên nhận hoàn toàn tự động từ khâu “Gửi ảnh → Tự động phân tích → Lưu trữ tích lũy dưới dạng Markdown vào thư mục expenses/”.



  • Thông qua việc sử dụng danh sách trắng ALLOWED_CHAT_ID, Docker sandbox và thiết lập .gitignore, bạn sẽ học được kỹ năng thực hành bảo mật để vận hành an toàn các AI Agent kết nối với Telegram.



  • Bằng cách chỉnh sửa AGENTS.md và kết nối các lệnh tắt, bạn có thể thiết kế quy trình làm việc của trợ lý AI cá nhân hóa để thực hiện các thói quen công việc lặp đi lặp lại của riêng mình thông qua nút nội bộ Telegram.

🧰 Stack công nghệ sử dụng trong bài học này

  • Mô hình AI


    • Google Gemini 2.5 Flash (Mô hình đa phương thức hỗ trợ Vision)



  • Tác nhân


    • OpenClaw.AI



  • Cơ sở hạ tầng & Môi trường thực thi


    • Docker

    • Docker Compose (chạy container cục bộ và mount volume)



  • Nhắn tin / Giao diện


    • Telegram Bot API

    • Bot Telegram chuyên dụng được tạo bằng BotFather



  • Tệp cấu hình & Tập lệnh


    • openclaw.json

    • Thiết lập model và token thông qua biến môi trường

    • Các tệp thiết lập Agent dựa trên Markdown (IDENTITY.md, AGENTS.md, SOUL.md)


  • Các công cụ khác

📋 Chuẩn bị trước khi học

1. Các chuẩn bị bắt buộc

  • Môi trường có thể truy cập web OpenClaw


    • ⭐ Nếu bạn đã có môi trường OpenClaw dựa trên Docker được xây dựng ở phần 1, hãy tiếp tục sử dụng nó.


    • ⭐ Nếu bạn chưa học Phần 1, vui lòng chuẩn bị trước để có thể truy cập vào OpenClaw từ trình duyệt theo tài liệu hướng dẫn chính thức hoặc hướng dẫn của bài giảng.


  • Tài khoản và ứng dụng Telegram


    • Bạn cần cài đặt ứng dụng Telegram trên điện thoại thông minh và tạo tài khoản.


    • Sẽ thuận tiện hơn cho việc thực hành nếu bạn có thể sử dụng Telegram bản web hoặc máy tính trên PC (hoặc trình duyệt).

    • Vì bạn cần tạo bot bằng cách trò chuyện với BotFather, nên tốt nhất là hãy duy trì trạng thái đăng nhập và thông báo của Telegram.


  • Cấp và trạng thái có thể sử dụng của Gemini API Key

    • Tài khoản Google có thể cấp khóa Gemini API từ Google AI Studio hoặc Google Cloud.

    • Vui lòng kiểm tra chính sách tính phí và chuẩn bị bảo quản an toàn khóa API đã cấp.

    • Cần kiểm tra xem việc gọi API bên ngoài có bị chặn trong môi trường mạng (mạng công ty/trường học, v.v.) hay không.


2. Khuyến nghị

  • Hoàn thành phần 1 (hoặc có kinh nghiệm tương đương)

    • [Cơ bản Phần 1] OpenClaw.AI Master Class: Tự tạo AI Agent tự trị với Gemini và Docker Nếu bạn đã hoàn thành khóa học này,
      trong phần 2, chúng ta có thể giảm thiểu phần giải thích thiết lập môi trường và tập trung vào Telegram, Vision và bảo mật.

    • Nếu bạn chưa học phần 1, chúng tôi khuyên bạn nên làm quen ở mức độ nhất định với việc cài đặt Docker, chạy container và sử dụng terminal cơ bản.


  • Kinh nghiệm cơ bản về Docker / Terminal

    • Kinh nghiệm thực hiện các câu lệnh cơ bản như docker compose up, docker ps.

    • Việc học sẽ thuận lợi hơn nếu bạn không cảm thấy quá áp lực với các môi trường phát triển cơ bản như VS Code, Terminal, hay clone repo từ GitHub.


  • Thực hành trong môi trường cá nhân

    • Khuyên bạn nên thực hành trên máy tính xách tay/máy tính để bàn cá nhân thay vì máy tính công ty hoặc máy chủ có dữ liệu nhạy cảm.

🧾 Tóm tắt điểm nổi bật theo từng phần

Phần 1. [Chuẩn bị] Trở lại làm chủ Agent

Nhanh chóng kiểm tra môi trường OpenClaw đã tạo ở phần 1 và tổng hợp các yếu tố thiết yếu cho phần thực hành của phần 2 thành một danh sách kiểm tra (checklist).

Chúng tôi cung cấp kèm theo "Hướng dẫn thiết lập tối thiểu + Danh sách kiểm tra trước" để ngay cả những người chưa nghe Phần 1 cũng có thể truy cập OpenClaw thông qua trình duyệt.


Phần 2. Trợ lý AI trong túi của tôi: Kết nối Telegram

Tạo bot Telegram của riêng bạn bằng BotFather và thiết lập kênh liên lạc an toàn thông qua việc ghép nối giữa Telegram và Agent.

Bạn sẽ thực hành tìm kiếm tệp từ xa bằng cách gửi tin nhắn qua Telegram ngay cả khi ở ngoài nhà như tại quán cà phê hay tàu điện ngầm để tra cứu các tệp trong không gian làm việc và nhận báo cáo dưới dạng bảng.


Phần 3. Công cụ đa phương thức: Gemini 2.5 Flash và phân tích thị giác

Kích hoạt mô hình thị giác Gemini 2.5 Flash để trang bị cho đại lý OpenClaw "đôi mắt biết đọc và hiểu" hình ảnh hóa đơn.

Bạn sẽ học cách nâng cao độ chính xác của việc nhận diện hóa đơn một cách ổn định bằng cách nắm vững các mẫu thiết lập và câu lệnh (prompt) để tự động nhận diện và trích xuất ngày tháng, tên cửa hàng, số tiền và danh mục hàng hóa.


Phần 4. [Thực chiến] Trợ lý hóa đơn: Tự động hóa chỉ với một tấm ảnh

Hoàn thành quy trình tự động lưu trữ kết quả phân tích dưới dạng markdown vào thư mục expenses/ khi gửi ảnh hóa đơn qua Telegram.

Sử dụng AGENTS.md và nút nhấn inline trên Telegram (lệnh tắt), chúng ta sẽ triển khai quy trình làm việc của trợ lý dựa trên lệnh tắt, giúp thực thi các quy trình cụ thể chỉ bằng một lần nhấn nút.


Phần 5. [Chuyên đề bảo mật] Hướng dẫn vận hành AI Agent an toàn

Chúng ta sẽ cùng xem xét các lỗ hổng bảo mật có thể xảy ra trong thực tế như rò rỉ mã token của bot Telegram, chiếm đoạt tài khoản, và lộ lọt thông tin nhạy cảm trong hóa đơn.

Thông qua Docker sandbox, tăng cường quyền hạn workspace, allowlist/allowFrom, chính sách bảo trì dữ liệu và danh sách kiểm tra (checklist), chúng tôi thiết lập các tiêu chuẩn vận hành để bạn có thể yên tâm đưa trợ lý AI từ xa vào công việc thực tế.

🙋‍♂️ Một lời từ người chia sẻ kiến thức

Chào mọi người, tôi là Kevin.


Nếu phần 1 tập trung vào việc “thiết lập trụ sở đặc vụ AI an toàn ngay trong máy tính của bạn”, thì phần 2 sẽ tập trung vào việc mở rộng trụ sở đó đến tận Telegram trong túi áo của bạn.

Mục tiêu lớn nhất của bài giảng này là giúp bạn "trực tiếp tạo ra" một quy trình mà ở đó, dù bạn đang ở quán cà phê, trên tàu điện ngầm hay trên đường đi làm về, chỉ cần gửi một bức ảnh hóa đơn, OpenClaw sẽ tự động phân tích và sắp xếp nó.


Tuy nhiên, nếu chỉ chú trọng vào sự tiện lợi mà bỏ qua bảo mật, trợ lý từ xa có thể trở nên không hoàn thiện bất cứ lúc nào. Vì vậy, ngay cả trong phần 2, chúng tôi đã xây dựng chương trình học theo phương pháp nắm bắt đồng thời cả hai trụ cột là sự tiện lợi và bảo mật ngay từ giai đoạn thiết kế ban đầu.


Triết lý bảo mật được đề cập trong loạt bài giảng OpenClaw cơ bản phần 2 rất đơn giản.

Thứ nhất, việc thực hành luôn chỉ được thực hiện bên trong Docker container, nhằm giới hạn phạm vi mà agent có thể tác động vật lý vào thư mục workspace.


Thứ hai, sử dụng thiết lập danh sách trắng (whitelist) như allowFrom cho kênh Telegram để giới hạn không nhận bất kỳ lệnh nào ngoại trừ các ID mà tôi đã cho phép.


Thứ ba, khi lưu trữ kết quả phân tích hóa đơn, hãy thiết kế cấu trúc tệp và câu lệnh (prompt) theo hướng chỉ lưu trữ tối thiểu những thông tin thực sự cần thiết cho công việc như ngày tháng, tên cửa hàng, số tiền, và không để lại các thông tin nhạy cảm như số thẻ.


Trong phần đầu của khóa học, chúng ta sẽ tập trung vào việc triển khai hệ thống, và khi khóa học kết thúc, tôi hy vọng bạn không chỉ sở hữu một "trợ lý từ xa hoạt động tốt" mà còn đạt được một “trợ lý có thể an tâm tin tưởng”, bao gồm đầy đủ cả ba nguyên tắc cơ bản này.


Cố lên!

🔗 Những điều cần lưu ý trước khi học & Link Github tài liệu bài giảng

1. Hướng dẫn về Github Repository

  • Tất cả các tài liệu như mã ví dụ, mẫu, danh sách kiểm tra và tài liệu bài giảng được sử dụng trong khóa học này đều được cung cấp thông qua
    Github Repository công khai.

  • Trong repository, bạn có thể tham khảo tập trung vào các vị trí sau đây.

    • docs/guides/ : Các tài liệu hướng dẫn miễn phí như danh sách kiểm tra trước môi trường thực hành phần 2, hướng dẫn liên kết Telegram, 10 điều răn về bảo mật, v.v.

    • lesson-files/ : Các tệp thực hành được sử dụng trong mỗi bài học

    • results/ : Các tệp cấu hình hoặc kết quả được tạo tự động trong quá trình thực hành

    • samples/ : Dữ liệu thực hành

  • Liên kết Github Repository như sau.

  • ⭐ Cách sử dụng tài liệu trong Github Repository đã được giải thích trong tệp README.md ở đường dẫn gốc, vì vậy hãy nhớ đọc kỹ nhé.


2. Hướng dẫn liên quan đến bảo vệ dữ liệu

  • Các tệp kết quả phân tích hóa đơn được tạo ra trong quá trình thực hành mặc định sẽ được lưu tại thư mục workspace/expenses/.

  • Vì thư mục này có thể bao gồm chi tiết tiêu dùng cá nhân như tên cửa hàng, số tiền, ngày tháng, v.v. nên:

    • Khi sử dụng đồng bộ hóa đám mây (ví dụ: Dropbox, Google Drive, iCloud), hãy loại trừ thư mục workspace/expenses/ khỏi đối tượng đồng bộ hóa, hoặc

      Khuyên bạn chỉ nên đồng bộ hóa với tài khoản cá nhân (kho lưu trữ riêng tư).

    • Khi tải lên các kho lưu trữ từ xa như GitHub, hãy nhớ thêm .gitignore vào expenses/ và thư mục hình ảnh gốc để,

      Hãy đảm bảo rằng chúng không bị commit hoặc push lên một cách vô ý.

  • Nếu bạn mang ví dụ này vào kho lưu trữ của công ty/nhóm, chúng tôi khuyên bạn nên thay thế bằng dữ liệu giả (dummy data) thay vì sử dụng hóa đơn thật.

Lưu ý

  • Nếu bạn muốn sử dụng tài liệu học tập và mã nguồn được sử dụng trong bài giảng trên không gian cá nhân như blog, bạn phải ghi rõ tiêu đề bài giảng, tên giảng viên và thêm liên kết đến bài giảng. Ngoài ra, xin vui lòng thông cảm rằng việc phân phối trái phép là không được phép.

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Những người đã từng sử dụng ChatGPT, Gemini nhưng giờ đây muốn tạo ra một quy trình làm việc thực tế kết nối với máy tính cá nhân của mình.

  • Những người muốn tạo hệ thống tự động quản lý chi phí/sổ thu chi cá nhân, giúp tự động sắp xếp chỉ bằng cách chụp ảnh vì cảm thấy việc thu thập hóa đơn và phân loại chi phí quá phiền phức.

  • Những nhà phát triển hoặc nhân viên văn phòng đã theo dõi phần 1 về cơ bản của OpenClaw cho đến Docker và workspace, và muốn mở rộng sang việc tích hợp với di động và kênh Telegram.

  • Những ai muốn trải nghiệm Telegram Bot và AI đa phương thức (Multimodal AI) cùng một lúc.

Cần biết trước khi bắt đầu?

  • Hoàn thành phần 1 cơ bản về OpenClaw hoặc có hiểu biết cơ bản về việc cài đặt OpenClaw dựa trên Docker và mount volume cho workspace.

  • Tài khoản Telegram, ứng dụng trên điện thoại thông minh và môi trường có thể tạo bot bằng BotFather

  • Khóa API Google Gemini (gói trả phí có thể sử dụng 2.5 Flash)

  • Kinh nghiệm sử dụng terminal cơ bản (mức độ thực hiện được các lệnh CLI đơn giản là đủ)

Xin chào
Đây là Kevin

6,597

Học viên

272

Đánh giá

121

Trả lời

4.8

Xếp hạng

10

Các khóa học

  • Ngôn ngữ hoặc công nghệ chủ lực: Java, Spring Framework, RxJava, Reactor, Spring WebFlux

  • Hoạt động với tư cách là nhà phát triển Backend tại Penta Security (From 2015.07 To 2022.01)

  • Hoạt động với tư cách là Senior Educational Software Engineer(Backend) tại Code States Co., Ltd. (https://www.codestates.com)
    (Từ 03.2022 đến 31.01.2024)

- Hoạt động với tư cách là nhà phát triển tự do và giảng viên (Since 2024.02)

- Tác phẩm (Sách đã xuất bản)

Xin chào? Tôi tên là Kevin. ^^

Rất vui được gặp các bạn với tư cách là giảng viên trên Inflearn.

Dù ở bất kỳ lĩnh vực nào cũng vậy, nhưng đặc biệt đối với một nhà phát triển phần mềm, tôi tin rằng cách duy nhất để tồn tại là luôn rèn luyện bản thân để không bị tụt hậu trước những xu hướng không ngừng thay đổi. Tôi là một trong những nhà phát triển đang tận hưởng việc phát triển phần mềm với thái độ luôn luôn học hỏi.

Với mong muốn những kiến thức và kinh nghiệm của bản thân có thể giúp ích được phần nào cho mọi người, tôi đã bắt đầu các khóa học trên Inflearn.

Trong tương lai, tôi sẽ tiếp tục gặp gỡ các bạn học viên thông qua nhiều khóa học đa dạng và mang lại những lợi ích thực tế. Xin cảm ơn.

 

Mọi câu hỏi hay ý kiến đóng góp luôn được chào đón, vì vậy hãy thoải mái liên hệ với tôi qua email (it.village.host@gmail.com).

 

Thêm

Chương trình giảng dạy

Tất cả

13 bài giảng ∙ (1giờ 45phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Chưa có đủ đánh giá.
Hãy trở thành tác giả của một đánh giá giúp mọi người!

Khóa học khác của Kevin

Hãy khám phá các khóa học khác của giảng viên!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!

Ưu đãi có thời hạn

3.078 ₫

29%

716.251 ₫