inflearn logo
知識共有
inflearn logo

安定的なAIエージェントサービス運用のための評価(Evaluation)手法

AIエージェント、デプロイするたびに不安を感じていませんか?国内の大手企業や海外のビッグテックでの経験をもとに、LangSmithを活用してエージェントの品質を体系的に測定し、改善する方法をお伝えします。

難易度 中級以上

受講期間 無制限

Python
Python
LangChain
LangChain
LangGraph
LangGraph
Python
Python
LangChain
LangChain
LangGraph
LangGraph

受講後に得られること

  • AIエージェント特化型の評価手法と実務ノウハウ

  • "勘"ではなく"データ"に基づいた意思決定体系の構築

  • 開発およびテストコストの画期的な削減

  • 実際のサービス運用時に発生するエラー解決およびデバッグ技術

丹精込めて作ったAIエージェント
リリースしても大丈夫でしょうか?



🤯

プロンプトを一つ変えただけなのに、うまく動いていた機能が急にぎこちなくなりました。

😢

最新モデルの方が賢いと聞いてアップグレードしたのですが、以前より性能が落ちたような気がします。

🤔

機能を改善したものの、どこまでテストすれば安心してデプロイできるのか分かりません。

😳

リリースの直前にエージェントの性能について尋ねるチームリーダーに、どう説明すればいいか途方に暮れています。


私たちがためらう理由は一つです。
プロンプト・モデル・ロジックを変更したとき、
全体の性能が本当に改善されるのか確信が持てないことです。

確信が必要な瞬間に必要なもの?
それはまさに、「AIエージェント評価」です。

安定したサービスの始まり
AIエージェント評価

AIエージェントは、一般的なソフトウェアとは異なる特性を持っています。


従来のソフトウェアとは異なるAIエージェントの特性

AIの非決定性

同じプロンプトを入力しても毎回結果が異なるため、一度結果が良かったからといって常に良いという保証はありません。 just because it was good once.

非定型問題

エージェントが扱う問題は、一つの正解がない場合がほとんどです。そのため、Pass/Failだけでは品質を担保できません。

動的システム

エージェントはプロンプトの修正、モデルのアップデート、ユーザー入力やパターンの変化などによって絶えず変化するため、継続的な品質確認が必要です。

結局、

AIエージェントの変化を適切に確認できなければ、
サービスはいつでも崩壊する可能性があります。



そこでご紹介する

実務にすぐ適用可能な
AIエージェント評価方法


評価プロセスに合わせて、データセットの構築からエージェントの評価、性能比較まで
実務にすぐ適用できる全過程を扱います。

01.

コストと時間を節約する
ゴールデンデータセットの構築

AIでドメインに合わせた評価データを作成する3つの方法を学習します。

RAGAS

質問-回答のQAデータセットを自動で生成

Custom Agent

カスタムプロンプトとツールでドメインに合わせたデータを生成

Claude Code Skill

小規模なデータを大量のデータセットに拡張


02.

ビッグテックが採用した
エージェント評価方法

Anthropic、Google、Amazonが採用した方法で、エージェントがどこでなぜ失敗したのかを検証する方法をお伝えします。


E2E + コンポーネント評価

E2Eは最終結果の成功/失敗を確認できる評価方法です。しかし、10〜20ステップに及ぶ複雑な実務エージェントでは、コンポーネント評価を併用する必要があります。各ステップを検証することで、「検索に問題があるのか、ツールの選択に問題があるのか」を正確に特定し、効率的にデバッグを行うことができます。


03.

Anthropicが教える
エージェントのパフォーマンスを数値で表現する方法

エージェントの最大性能と一貫性を客観的に比較・評価できる2つの方法を紹介します。


pass@k

エージェントが発揮できる最大性能を確認する指標

pass^k

エージェントがどれだけ一貫して動作するかを確認する指標


📚

学習カリキュラムの紹介

セクション 1

AIエージェント評価の必要性

AIエージェント評価の定義と、なぜそれが必要不可欠なのかを説明します。データに基づいた意思決定体系の構築を通じて、AIサービスの完成度を高め、開発およびテストコストを削減する方法を探求します。


セクション 2

Golden Dataset 構築戦略

Golden Datasetを生成する方法を扱います。LangSmithの設定、カスタムエージェント、および多様なドキュメントタイプを活用したデータセット構築の実習を含みます。


セクション 3

AIエージェント評価指標の設計

AIエージェントの性能を測定するための評価指標の設計を学習します。End-to-End評価およびコンポーネント別評価の方法を通じて、正確性、ドキュメント検索、ツール使用の効率性を分析します。


セクション 4

エージェント性能定量分析の深化

Pass@kやPass^kといった高度な指標を使用して、エージェントの最大性能と信頼性を数値的に分析する方法を学びます。これにより、エージェントの潜在能力と安定性を深く評価します。


このような方々の悩みを
解決できます!

📌

AIエージェント開発者

モデルの性能向上のためにプロンプトを修正するたびに、
既存の機能が予期せず誤作動するのではないかと不安を感じている方

📌

AIサービス運営担当者

モデルアップデート時に、サービス全体の安定性が低下することを懸念されている方、
明確な評価指標がなく、直感に頼って意思決定することに難しさを感じている方

📌

LLMベースのサービス企画者

AIエージェントの性能改善の要件をチームに伝える際、
「勘」ではなく具体的なデータと指標に基づいてコミュニケーションを取りたい方

受講前のご注意事項


実習環境

  • Python 3.13 以上のバージョンのインストールが必要です。


前提知識および注意事項

学習資料

こんな方に
おすすめです

学習対象は
誰でしょう?

  • プロンプトを一行直すたびに、他の機能が壊れるのではないかと不安になる開発者

  • 開発チームとコミュニケーションをとる際、「感覚」ではなくデータと指標に基づいて意思決定を行いたい企画者

  • 基礎を超えて実務レベルのAIエージェントを開発したい開発者

前提知識、
必要でしょうか?

  • Python必須

  • LangGraph 必須

こんにちは
jasonkangです。

18,185

受講生

1,378

受講レビュー

518

回答

4.9

講座評価

10

講座

もっと見る

カリキュラム

全体

18件 ∙ (3時間 16分)

講座掲載日: 
最終更新日: 

受講レビュー

全体

4件

5.0

4件の受講レビュー

  • qkenr1321559님의 프로필 이미지
    qkenr1321559

    受講レビュー 7

    平均評価 5.0

    修正済み

    5

    33% 受講後に作成

    いつも信頼して受講しているジェイスンさんの講義です。講師のLangchain関連の講義はすべて受講しており、そのおかげで現在はジュニアAIエンジニアとして業務を行っています。実務で評価に関して色々と悩んでいたのですが、ちょうど良いタイミングで講義が公開されたので、早速学習して適用しようとしています。いつも質の高い講義を提供してくださり、ありがとうございます。 追加で別件の質問なのですが、今回本を出版されたことを今さら知りました。まだ本は購入していないのですが、講義をすべて受講した状態でも、本で学習する価値があるかどうかお伺いしたいです。 いつも受講生の立場に立って説明し共有してくださるので、良い先輩(サス)のような安心感がある講義です。改めて、いつも素晴らしい講義をありがとうございます。 :)

    • jasonkang
      知識共有者

      ソンギュさん、こんにちは!素敵なフィードバックをありがとうございます。講義を受講されたことがAIエンジニアとしてのキャリアに役立ったとのこと、講義の効果が証明されたようでとても誇らしい気持ちです。共有していただきありがとうございます。 講義よりも本の方では、もう少し多様な評価戦略や方法を扱ってはいます。ですが、講義でも十分に評価理論を扱っているため、講義をすべて受講されたのであれば、本はあえて購入しなくても大丈夫だと思います(本を販売する立場として、このようなことを言ってはいけないかもしれませんが😅)。また良い講義でお会いできるよう努めます!

    • あ。むしろ正直にお話しいただいて、とても信頼できますし、ありがとうございます..!! :) これからもすぐにアーリーバードで一番に受講するようにします。よろしくお願いいたします!

  • nopainnogame6243님의 프로필 이미지
    nopainnogame6243

    受講レビュー 5

    平均評価 4.8

    5

    100% 受講後に作成

    • dev8715님의 프로필 이미지
      dev8715

      受講レビュー 1

      平均評価 5.0

      5

      61% 受講後に作成

      • ysj님의 프로필 이미지
        ysj

        受講レビュー 4

        平均評価 5.0

        5

        61% 受講後に作成

        jasonkangの他の講座

        知識共有者の他の講座を見てみましょう!

        似ている講座

        同じ分野の他の講座を見てみましょう!

        期間限定セール

        ¥48,510

        30%

        ¥8,847