Phương pháp đánh giá (Evaluation) để vận hành dịch vụ AI Agent ổn định

Bạn có cảm thấy lo lắng mỗi khi triển khai AI Agent không? Dựa trên kinh nghiệm làm việc tại các tập đoàn lớn trong nước và các công ty công nghệ lớn (Big Tech) nước ngoài, tôi sẽ hướng dẫn bạn cách đo lường và cải thiện chất lượng Agent một cách hệ thống bằng cách sử dụng LangSmith.

51 học viên đang tham gia khóa học này

Độ khó Trung cấp trở lên

Thời gian Không giới hạn

Python
Python
LangChain
LangChain
LangGraph
LangGraph
Python
Python
LangChain
LangChain
LangGraph
LangGraph

Bạn sẽ nhận được điều này sau khi học.

  • Phương pháp luận đánh giá chuyên biệt cho AI Agent và bí quyết thực tiễn

  • "Thiết lập hệ thống ra quyết định dựa trên "dữ liệu" thay vì "cảm tính"

  • Giảm đáng kể chi phí phát triển và thử nghiệm

  • Kỹ thuật gỡ lỗi và giải quyết lỗi phát sinh khi vận hành dịch vụ thực tế

AI Agent mà bạn đã dày công xây dựng
liệu có ổn để triển khai không?



🤯

Chỉ thay đổi một câu lệnh prompt thôi mà chức năng đang hoạt động tốt bỗng nhiên trở nên chậm chạp.

😢

Nghe nói mô hình mới nhất thông minh hơn nên tôi đã nâng cấp, nhưng dường như hiệu suất lại kém hơn trước.

🤔

Tôi đã cải thiện tính năng, nhưng không biết phải kiểm tra đến mức nào mới có thể yên tâm triển khai.

😳

Tôi cảm thấy rất mông lung không biết phải giải thích thế nào với trưởng nhóm khi họ hỏi về hiệu suất của agent trước thềm triển khai.


Lý do chúng ta ngần ngại chỉ có một.
Khi thay đổi prompt, mô hình hoặc logic
chúng ta không chắc chắn liệu hiệu suất tổng thể có thực sự được cải thiện hay không

Điều cần thiết vào khoảnh khắc bạn cần sự chắc chắn?
Đó chính là 'Đánh giá AI Agent'.

Khởi đầu của một dịch vụ ổn định
Đánh giá AI Agent

AI Agent có những đặc điểm khác biệt so với phần mềm thông thường.


Đặc điểm của AI Agent khác với phần mềm truyền thống

Tính phi định hình của AI

Ngay cả khi nhập cùng một câu lệnh, kết quả mỗi lần đều có thể khác nhau, vì vậy việc kết quả tốt một lần không đảm bảo rằng nó sẽ luôn tốt.

Vấn đề phi cấu trúc

Hầu hết các vấn đề mà agent xử lý đều không có một đáp án chính xác duy nhất. Do đó, không thể kiểm soát chất lượng chỉ bằng kết quả Đạt/Không đạt (Pass/Fail).

Hệ thống động

Vì các agent liên tục thay đổi do việc chỉnh sửa prompt, cập nhật mô hình, sự thay đổi của đầu vào/mẫu người dùng, v.v., nên việc kiểm tra chất lượng liên tục là rất cần thiết.

Rốt cuộc,

Nếu không kiểm tra kỹ lưỡng những thay đổi của AI Agent,
dịch vụ có thể sụp đổ bất cứ lúc nào.



Vì vậy, chúng tôi sẽ cho bạn biết

Có thể áp dụng ngay vào thực tế
Phương pháp đánh giá AI Agent


Chúng tôi sẽ đề cập đến toàn bộ quá trình có thể áp dụng ngay vào thực tế, từ xây dựng bộ dữ liệu phù hợp với quy trình đánh giá cho đến đánh giá tác nhân (agent) và so sánh hiệu suất.
Nội dung bao gồm tất cả các bước có thể áp dụng trực tiếp vào công việc thực tế.

01.

Tiết kiệm chi phí và thời gian
Xây dựng bộ dữ liệu vàng (Golden Dataset)

Học ba phương pháp tạo dữ liệu đánh giá phù hợp với từng lĩnh vực bằng AI.

RAGAS

Tự động tạo bộ dữ liệu QA (Câu hỏi-Đáp án)

Custom Agent

Tạo dữ liệu phù hợp với lĩnh vực bằng các công cụ và lời nhắc tùy chỉnh

Kỹ năng lập trình Claude (Claude Code Skill)

Mở rộng dữ liệu quy mô nhỏ thành bộ dữ liệu khổng lồ


02.

Phương pháp đánh giá Agent
được các Big Tech áp dụng

Chúng tôi sẽ hướng dẫn bạn phương pháp được Anthropic, Google và Amazon áp dụng để kiểm chứng xem agent đã thất bại ở đâu và tại sao.


Đánh giá E2E + Thành phần

E2E là phương pháp đánh giá giúp xác định sự thành công hay thất bại của kết quả cuối cùng. Tuy nhiên, đối với các agent thực tế phức tạp trải qua từ 10 đến 20 bước, cần phải sử dụng kết hợp với đánh giá Component. Bằng cách kiểm chứng từng bước, bạn có thể xác định chính xác "vấn đề nằm ở việc tìm kiếm hay ở việc lựa chọn công cụ" để gỡ lỗi một cách hiệu quả.


03.

Anthropic hướng dẫn
Cách thể hiện hiệu suất của Agent bằng con số

Giới thiệu 2 phương pháp có thể so sánh và đánh giá khách quan hiệu suất tối đa cũng như tính nhất quán của agent.


pass@k

Chỉ số xác nhận hiệu suất tối đa mà tác nhân có thể đạt được

pass^k

Chỉ số kiểm tra mức độ hoạt động nhất quán của tác nhân


📚

Giới thiệu lộ trình học tập

Phần 1

Sự cần thiết của việc đánh giá AI Agent

Giải thích định nghĩa về đánh giá AI Agent và lý do tại sao nó lại thiết yếu. Khám phá các phương pháp nâng cao độ hoàn thiện của dịch vụ AI và cắt giảm chi phí phát triển cũng như thử nghiệm thông qua việc thiết lập hệ thống ra quyết định dựa trên dữ liệu.


Phần 2

Chiến lược xây dựng Golden Dataset

Nội dung này đề cập đến cách tạo Golden Dataset. Bao gồm thực hành xây dựng bộ dữ liệu bằng cách thiết lập LangSmith, sử dụng các agent tùy chỉnh và nhiều loại tài liệu khác nhau.


Phần 3

Thiết kế chỉ số đánh giá AI Agent

Học cách thiết kế các chỉ số đánh giá để đo lường hiệu suất của AI Agent. Thông qua các phương pháp đánh giá End-to-End và đánh giá theo từng thành phần, chúng ta sẽ phân tích tính chính xác, khả năng tìm kiếm tài liệu và hiệu quả sử dụng công cụ.


Phần 4

Phân tích định lượng chuyên sâu về hiệu suất của Agent

Bạn sẽ học cách phân tích định lượng hiệu suất tối đa và độ tin cậy của agent bằng cách sử dụng các chỉ số nâng cao như Pass@k và Pass^k. Thông qua đó, bạn có thể đánh giá chuyên sâu về tiềm năng và tính ổn định của agent.


Có thể giải quyết nỗi lo của những người như thế này!


📌

Nhà phát triển AI Agent

Những người cảm thấy lo lắng mỗi khi sửa đổi câu lệnh (prompt) để cải thiện hiệu suất mô hình,
vì sợ rằng các chức năng hiện có có thể hoạt động sai lệch một cách không mong muốn.

📌

Người phụ trách vận hành dịch vụ AI

Những người gặp khó khăn trong việc đưa ra quyết định khi cập nhật mô hình vì lo ngại tính ổn định của toàn bộ dịch vụ bị giảm sút,
và phải dựa vào trực giác mà không có các chỉ số đánh giá rõ ràng.

📌

Người lập kế hoạch dịch vụ dựa trên LLM

Những người muốn giao tiếp dựa trên dữ liệu và chỉ số cụ thể thay vì chỉ dựa vào "cảm giác"
khi truyền đạt các yêu cầu cải thiện hiệu suất của AI Agent cho đội ngũ.

Lưu ý trước khi học


Môi trường thực hành

  • Cần cài đặt phiên bản Python 3.13 trở lên.


Kiến thức tiên quyết và lưu ý

Tài liệu học tập

  • Tài liệu bài giảng được cung cấp qua trang Notion↗️

  • Mã thực hành và bộ dữ liệu mẫu được cung cấp thông qua GitHub↗️


Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Một nhà phát triển luôn cảm thấy bất an rằng mỗi khi sửa một dòng prompt, một chức năng khác sẽ bị hỏng.

  • Người lập kế hoạch muốn đưa ra quyết định dựa trên dữ liệu và chỉ số thay vì 'cảm giác' khi giao tiếp với nhóm phát triển

  • Nhà phát triển muốn phát triển AI Agent ở cấp độ thực tế thay vì chỉ dừng lại ở mức cơ bản

Cần biết trước khi bắt đầu?

  • Yêu cầu bắt buộc Python

  • LangGraph thiết yếu

Xin chào
Đây là jasonkang

18,052

Học viên

1,361

Đánh giá

514

Trả lời

4.9

Xếp hạng

10

Các khóa học

Thêm

Chương trình giảng dạy

Tất cả

18 bài giảng ∙ (3giờ 16phút)

Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Chưa có đủ đánh giá.
Hãy trở thành tác giả của một đánh giá giúp mọi người!

Khóa học khác của jasonkang

Hãy khám phá các khóa học khác của giảng viên!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!

Ưu đãi có thời hạn

48.510 ₫

30%

1.461.624 ₫