
RAGを活用したLLM Application開発(feat. LangChain)
jasonkang
¥8,486
初級 / LLM, RAG, LangChain, vector-database, openAI API
4.9
(506)
シリコンバレー GenAI ハッカソン優勝者から学ぶ RAG。実務ノウハウがぎっしり詰まっています
初級
LLM, RAG, LangChain
AIエージェント、デプロイするたびに不安を感じていませんか?国内の大手企業や海外のビッグテックでの経験をもとに、LangSmithを活用してエージェントの品質を体系的に測定し、改善する方法をお伝えします。
AIエージェント特化型の評価手法と実務ノウハウ
"勘"ではなく"データ"に基づいた意思決定体系の構築
開発およびテストコストの画期的な削減
実際のサービス運用時に発生するエラー解決およびデバッグ技術
プロンプトを一つ変えただけなのに、うまく動いていた機能が急にぎこちなくなりました。
最新モデルの方が賢いと聞いてアップグレードしたのですが、以前より性能が落ちたような気がします。
機能を改善したものの、どこまでテストすれば安心してデプロイできるのか分かりません。
リリースの直前にエージェントの性能について尋ねるチームリーダーに、どう説明すればいいか途方に暮れています。
私たちがためらう理由は一つです。
プロンプト・モデル・ロジックを変更したとき、
全体の性能が本当に改善されるのか確信が持てないことです。
AIエージェントは、一般的なソフトウェアとは異なる特性を持っています。
同じプロンプトを入力しても毎回結果が異なるため、一度結果が良かったからといって常に良いという保証はありません。 just because it was good once.
エージェントが扱う問題は、一つの正解がない場合がほとんどです。そのため、Pass/Failだけでは品質を担保できません。
エージェントはプロンプトの修正、モデルのアップデート、ユーザー入力やパターンの変化などによって絶えず変化するため、継続的な品質確認が必要です。
結局、
そこでご紹介する
評価プロセスに合わせて、データセットの構築からエージェントの評価、性能比較まで
実務にすぐ適用できる全過程を扱います。
AIでドメインに合わせた評価データを作成する3つの方法を学習します。
質問-回答のQAデータセットを自動で生成
カスタムプロンプトとツールでドメインに合わせたデータを生成
小規模なデータを大量のデータセットに拡張
Anthropic、Google、Amazonが採用した方法で、エージェントがどこでなぜ失敗したのかを検証する方法をお伝えします。
E2Eは最終結果の成功/失敗を確認できる評価方法です。しかし、10〜20ステップに及ぶ複雑な実務エージェントでは、コンポーネント評価を併用する必要があります。各ステップを検証することで、「検索に問題があるのか、ツールの選択に問題があるのか」を正確に特定し、効率的にデバッグを行うことができます。
エージェントの最大性能と一貫性を客観的に比較・評価できる2つの方法を紹介します。
エージェントが発揮できる最大性能を確認する指標
エージェントがどれだけ一貫して動作するかを確認する指標
セクション 1
AIエージェント評価の定義と、なぜそれが必要不可欠なのかを説明します。データに基づいた意思決定体系の構築を通じて、AIサービスの完成度を高め、開発およびテストコストを削減する方法を探求します。
セクション 2
Golden Datasetを生成する方法を扱います。LangSmithの設定、カスタムエージェント、および多様なドキュメントタイプを活用したデータセット構築の実習を含みます。
セクション 3
AIエージェントの性能を測定するための評価指標の設計を学習します。End-to-End評価およびコンポーネント別評価の方法を通じて、正確性、ドキュメント検索、ツール使用の効率性を分析します。
セクション 4
Pass@kやPass^kといった高度な指標を使用して、エージェントの最大性能と信頼性を数値的に分析する方法を学びます。これにより、エージェントの潜在能力と安定性を深く評価します。
モデルの性能向上のためにプロンプトを修正するたびに、
既存の機能が予期せず誤作動するのではないかと不安を感じている方
モデルアップデート時に、サービス全体の安定性が低下することを懸念されている方、
明確な評価指標がなく、直感に頼って意思決定することに難しさを感じている方
AIエージェントの性能改善の要件をチームに伝える際、
「勘」ではなく具体的なデータと指標に基づいてコミュニケーションを取りたい方
実習環境
Python 3.13 以上のバージョンのインストールが必要です。
前提知識および注意事項
Pythonプログラミングの基本文法に習熟している必要があります。
LangChain + LangGraphを活用したエージェント開発の経験がある方に適しています。
LangChainの文法に慣れていない方は、まず1時間で終わらせるLangChainの基本↗️ を受講してください。
LangGraphの文法に慣れていない方は、まずLangGraphを活用したAI Agent開発↗️を先に受講してください
学習資料
講義資料がNotionページ↗️で提供されます
実習コードおよび例題データセットは GitHub↗️ を通じて提供されます
学習対象は
誰でしょう?
プロンプトを一行直すたびに、他の機能が壊れるのではないかと不安になる開発者
開発チームとコミュニケーションをとる際、「感覚」ではなくデータと指標に基づいて意思決定を行いたい企画者
基礎を超えて実務レベルのAIエージェントを開発したい開発者
前提知識、
必要でしょうか?
Python必須
LangGraph 必須
18,185
受講生
1,378
受講レビュー
518
回答
4.9
講座評価
10
講座
FAANG シニアソフトウェアエンジニア
(元) GSグループ AI Agent プラットフォーム開発/運用
(元) GSグループ DX BootCamp メンター/コーチング
(元) シリーズC AIスタートアップ テクリード
Stanford University Code in Place Python Instructor
ネイバー ブーストキャンプ ウェブ/モバイル メンター
NAVER CLOUD YouTube Channel プレゼンター
一人でもテキパキこなすAIエージェント作り with LangChain & LangGraph 著者

Wanted プレオンボーディング フロントエンド/バックエンド チャレンジ 進行(累計 6000+) (tích lũy hơn 6000 người tham gia)
航海AIプラスコース 第1期コーチ khóa 1
全体
18件 ∙ (3時間 16分)
1. この講義で扱うことと扱わないこと
09:49
全体
4件
5.0
4件の受講レビュー
受講レビュー 7
∙
平均評価 5.0
修正済み
5
いつも信頼して受講しているジェイスンさんの講義です。講師のLangchain関連の講義はすべて受講しており、そのおかげで現在はジュニアAIエンジニアとして業務を行っています。実務で評価に関して色々と悩んでいたのですが、ちょうど良いタイミングで講義が公開されたので、早速学習して適用しようとしています。いつも質の高い講義を提供してくださり、ありがとうございます。 追加で別件の質問なのですが、今回本を出版されたことを今さら知りました。まだ本は購入していないのですが、講義をすべて受講した状態でも、本で学習する価値があるかどうかお伺いしたいです。 いつも受講生の立場に立って説明し共有してくださるので、良い先輩(サス)のような安心感がある講義です。改めて、いつも素晴らしい講義をありがとうございます。 :)
ソンギュさん、こんにちは!素敵なフィードバックをありがとうございます。講義を受講されたことがAIエンジニアとしてのキャリアに役立ったとのこと、講義の効果が証明されたようでとても誇らしい気持ちです。共有していただきありがとうございます。 講義よりも本の方では、もう少し多様な評価戦略や方法を扱ってはいます。ですが、講義でも十分に評価理論を扱っているため、講義をすべて受講されたのであれば、本はあえて購入しなくても大丈夫だと思います(本を販売する立場として、このようなことを言ってはいけないかもしれませんが😅)。また良い講義でお会いできるよう努めます!
あ。むしろ正直にお話しいただいて、とても信頼できますし、ありがとうございます..!! :) これからもすぐにアーリーバードで一番に受講するようにします。よろしくお願いいたします!
受講レビュー 5
∙
平均評価 4.8
受講レビュー 1
∙
平均評価 5.0
受講レビュー 4
∙
平均評価 5.0
知識共有者の他の講座を見てみましょう!
同じ分野の他の講座を見てみましょう!
期間限定セール
¥48,510
30%
¥8,847

