채널톡 아이콘

안정적인 AI 에이전트 서비스 운영을 위한 평가(Evaluation) 방법

AI 에이전트, 배포할 때마다 불안하신가요? 국내 대기업/해외 빅테크 경험을 바탕으로, LangSmith를 활용해 에이전트 품질을 체계적으로 측정하고 개선하는 방법을 알려드립니다.

(5.0) 수강평 3개

수강생 68명

난이도 중급이상

수강기한 무제한

AI 활용법
AI 활용법
실습 중심
실습 중심
AI 활용법
AI 활용법
실습 중심
실습 중심
카카오페이
마이크로소프트
쏘카
배달의민족
네이버
CJ

네이버

CJ

임직원들도 이 강의를 듣고 있어요!

카카오페이
마이크로소프트
쏘카
배달의민족
네이버
CJ

네이버

CJ

임직원들도 이 강의를 듣고 있어요!

수강 후 이런걸 얻을 수 있어요

  • AI 에이전트 특화 평가 방법론과 실무 노하우

  • "감"이 아닌 "데이터" 기반의 의사결정 체계 구축

  • 개발 및 테스트 비용의 획기적인 절감

  • 실제 서비스 운영 시 발생하는 에러 해결 및 디버깅 기술

공들여 만든 AI 에이전트
배포해도 괜찮을까요?



🤯

프롬프트 하나 바꿨을 뿐인데, 잘 동작하던 기능이 갑자기 버벅거려요.

😢

최신 모델이 더 똑똑하다길래 업그레이드했는데, 전보다 성능이 떨어진 것 같아요.

🤔

기능을 개선했는데, 어디까지 테스트해야 안심하고 배포할 수 있을지 모르겠어요.

😳

배포를 앞두고 에이전트 성능을 물어보시는 팀장님에게 어떻게 설명해야 할지 막막해요.


우리가 망설이는 원인은 하나입니다.
프롬프트 · 모델 · 로직을 변경했을 때
전체 성능이 정말 개선될 지 확신이 없다는 것

확신이 필요한 순간 필요한 것?
바로, 'AI 에이전트 평가' 입니다.

안정적인 서비스의 시작
AI 에이전트 평가

AI 에이전트는 일반적인 소프트웨어와 다른 특성을 가지고 있습니다.


기존 소프트웨어와 다른 AI 에이전트의 특성

AI의 비결정성

같은 프롬프트를 입력하더라도 매번 결과가 달라지기 때문에, 한 번 결과가 좋았다고 항상 좋다는 보장이 없습니다.

비정형 문제

에이전트가 다루는 문제는 하나의 정답이 없는 경우가 대부분입니다. 그래서 Pass/Fail 만으로는 품질을 잡을 수 없습니다.

동적 시스템

에이전트는 프롬프트 수정, 모델 업데이트, 사용자 입력/패턴 변화 등으로 계속 변하기 때문에 지속적인 품질 확인이 필요합니다.

결국,

AI 에이전트의 변화를 제대로 확인하지 못하면
서비스는 언제든 무너질 수 있습니다.



그래서 알려드리는

실무에 바로 적용 가능한
AI 에이전트 평가 방법


평가 프로세스에 맞춰 데이터셋 구축부터 에이전트 평가, 성능 비교까지
실무에 바로 적용할 수 있는 전 과정을 다룹니다.

01.

비용과 시간을 아끼는
골든 데이터셋 구축

AI로 도메인에 맞는 평가 데이터를 만드는 세 가지 방법을 학습합니다.

RAGAS

질문-정답 QA 데이터셋을 자동으로 생성

Custom Agent

커스텀 프롬프트와 도구로 도메인에 맞는 데이터 생성

Claude Code Skill

소규모 데이터를 대량의 데이터 셋으로 확장


02.

빅테크에서 채택한
에이전트 평가 방법

Anthropic, Google, Amazon이 채택한 방법으로 에이전트가 어디서 왜 실패했는지 검증하는 방법을 알려드립니다.


E2E + Component 평가

E2E는 최종 결과의 성공/실패를 알 수 있는 평가 방법입니다. 하지만 10~20단계를 거치는 복잡한 실무 에이전트에서는 Component 평가를 함께 써야 합니다. 각 단계를 검증하며 "검색이 문제인지, 도구 선택이 문제인지"를 정확히 짚어 효율적으로 디버깅할 수 있습니다.


03.

Anthropic이 알려주는
에이전트 성능을 숫자로 표현하는 법

에이전트의 최대 성능과 일관성을 객관적으로 비교 · 평가할 수 있는 2가지 방법을 소개합니다.


pass@k

에이전트가 낼 수 있는 최대의 성능을 확인하는 지표

pass^k

이전트가 얼마나 일관되게 작동하는지 확인하는 지표


📚

학습 커리큘럼 소개

Section 1

AI 에이전트 평가의 필요성

AI 에이전트 평가의 정의와 필수적인 이유를 설명합니다. 데이터 기반의 의사결정 체계 구축을 통해 AI 서비스의 완성도를 높이고 개발 및 테스트 비용을 절감하는 방안을 탐구합니다.


Section 2

Golden Dataset 구축 전략

Golden Dataset을 생성하는 방법을 다룹니다. LangSmith 설정, 커스텀 에이전트 및 다양한 문서 유형을 활용한 데이터셋 구축 실습을 포함합니다.


Section 3

AI 에이전트 평가 지표 설계

AI 에이전트의 성능을 측정하기 위한 평가 지표 설계를 학습합니다. End-to-End 평가 및 컴포넌트별 평가 방법을 통해 정확성, 문서 검색, 도구 사용의 효율성을 분석합니다.


Section 4

에이전트 성능 정량 분석 심화

Pass@k와 Pass^k와 같은 고급 지표를 사용하여 에이전트의 최대 성능과 신뢰성을 수치적으로 분석하는 방법을 배웁니다. 이를 통해 에이전트의 잠재력과 안정성을 심층적으로 평가합니다.


이런 분들의 고민을
해결할 수 있어요!

📌

AI 에이전트 개발자

모델 성능 향상을 위해 프롬프트를 수정할 때마다,
기존 기능이 예상치 못하게 오작동할까 봐 불안감을 느끼는 분

📌

AI 서비스 운영 담당자

모델 업데이트 시, 서비스 전반의 안정성이 저하될까 봐,
명확한 평가 지표 없이 직관에 의존하여 의사결정하는 데 어려움을 겪는 분

📌

LLM 기반 서비스 기획자

AI 에이전트의 성능 개선 요구사항을 팀에 전달할 때,
'감'이 아닌 구체적인 데이터와 지표를 기반으로 소통하고 싶은 분

수강 전 참고 사항


실습 환경

  • Python 3.13 이상 버전 설치가 필요합니다.


선수 지식 및 유의사항

학습 자료

이런 분들께
추천드려요

학습 대상은
누구일까요?

  • 프롬프트를 한 줄 고칠 때마다, 다른 기능이 망가질까 봐 불안한 개발자

  • 개발 팀과 소통할 때 '느낌'이 아닌 데이터와 지표를 바탕으로 의사결정을 내리고 싶은 기획자

  • 기초를 넘어 실무 수준의 AI 에이전트를 개발하고 싶은 개발자

선수 지식,
필요할까요?

  • Python 필수

  • LangGraph 필수

안녕하세요
제이쓴입니다.

18,121

수강생

1,372

수강평

517

답변

4.9

강의 평점

10

강의

더보기

커리큘럼

전체

18개 ∙ (3시간 16분)

강의 게시일: 
마지막 업데이트일: 

수강평

전체

3개

5.0

3개의 수강평

  • 이성규님의 프로필 이미지
    이성규

    수강평 7

    평균 평점 5.0

    수정됨

    5

    33% 수강 후 작성

    항상 믿고 신청하는 제이쓴 강의입니다. 강사님의 모든 Langchain 관련 강의를 수강하였고 덕분에 현재 주니어 AI Engineer로 업무를 진행하고있습니다. 현업에서 평가 관련으로 많이 고민을 하고 있었는데, 마침 딱 타이밍 좋게 강의가 나와서 빠르게 학습하고 적용하려 하고 있습니다. 언제나 좋은 퀄리티의 강의를 내주셔서 감사합니다. 추가적으로 별개의 질문이지만 이번에 책을 내신것을 이제서야 알았습니다. 아직 책은 구입하지 않았는데, 강의를 모두 들었음에도 책으로 학습할만한지 여쭈고싶습니다. 항상 수강생의 입장에서 설명하고 공유해주셔서 좋은 사수같은 느낌의 강의입니다. 다시한번, 항상 좋은 강의 감사합니다. :)

    • 제이쓴
      지식공유자

      안녕하세요 성규님! 좋은 피드백 감사합니다. 강의를 수강하신게 AI 엔지니어 커리어에 도움이 됐다고 하시니 강의의 효과가 증명된 것 같아서 뿌듯하네요. 공유해주셔서 감사합니다 도서를 판매하는 입장에서 이런 말을 하면 안되겠지만 강의에서도 충분히 평가 이론을 다루기 때문에 강의를 모두 수강하셨으면 책은 굳이 구입하지 않으셔도 될 것 같습니다 😅 또 좋은 강의로 인사 드리도록 하겠습니다!

    • 아. 오히려 솔직히 말씀해주셔서 너무 믿음가고 감사합니다..!! :) 앞으로도 바로 얼리버드로 제일 먼저 수강하도록하겠습니다. 잘부탁드리겠습니다!

  • bj님의 프로필 이미지
    bj

    수강평 5

    평균 평점 4.8

    5

    100% 수강 후 작성

    • dev님의 프로필 이미지
      dev

      수강평 1

      평균 평점 5.0

      5

      61% 수강 후 작성

      제이쓴님의 다른 강의

      지식공유자님의 다른 강의를 만나보세요!

      비슷한 강의

      같은 분야의 다른 강의를 만나보세요!

      얼리버드 할인 중

      ₩48,510

      30%

      ₩69,300