강의

멘토링

로드맵

개발 · 프로그래밍

/

데브옵스 · 인프라

실무에 바로 적용하는 AWS 배포

AWS로 서비스를 배포/운영하고싶은 분들을 위해 준비했습니다. 도메인 설정부터 도커와 서버리스까지!

(4.8) 수강평 12개

수강생 133명

난이도 초급

수강기한 무제한

  • 제이쓴
실습 중심
실습 중심
aws
aws
vpc
vpc
Route53
Route53
실습 중심
실습 중심
aws
aws
vpc
vpc
Route53
Route53
새소식 목록
관리
작성

[강의 오픈] AI 에이전트의 성능을 증명하는 법: 평가(Evaluation) 심화 실습

안녕하세요! 지난번 제 첫 책 출간 소식과 함께 예고해 드렸던 'AI 에이전트 평가(Evaluation)' 심화 강의가 드디어 오픈되었습니다!🎉

지난번 남겨드린 메시지에서 말씀드렸듯, 책을 통해 평가에 관한 '이론적인 토대와 핵심 원칙'을 다졌다면, 이번 강의는 실무 환경에서 이를 어떻게 자동화하고 시스템으로 구축할 것인가에 대한 완벽한 실습 및 적용 가이드입니다.

첨부된 목차에서 보실 수 있듯, 주관적인 테스트를 넘어 객관적인 지표로 에이전트를 관리하기 위한 핵심 내용들을 꽉꽉 채워 담았습니다.

📌 주요 강의 내용

  • Golden Dataset 구축의 모든 것: RAGAS 라이브러리, LangSmith, 커스텀 에이전트 및 Claude Code Agent Skill을 활용한 효율적인 평가 데이터셋 생성 기법

  • 다각도 평가(Evaluation) 실습: 최종 답변의 정확도를 보는 e2e 평가부터, 문서를 잘 가져왔는지, 도구를 알맞은 순서대로(Trajectory) 활용했는지 검증하는 Component Evaluation까지

  • 고급 평가 지표 및 프레임워크 적용: Anthropic 권장 에이전트 평가 지표, 그리고 AI의 잠재력(pass@k)과 일관성(pass^k)을 측정하는 방법

  • 지속 가능한 평가 시스템 구축 방안

단순히 에이전트를 '구현'하는 것을 넘어, 프로덕션 레벨에서 내 AI가 "항상 올바르게 동작하는가?"를 데이터로 '증명'하고 최적화하고 싶으신 분들께 가장 확실한 길잡이가 될 것입니다. 책으로 단단한 기본기를 다지셨다면, 이제 이어지는 이번 실습 강의를 통해 '평가의 완성'을 직접 경험해 보세요!

출시 기념 얼리버드 30% 할인 중이니, 책으로 다진 탄탄한 이론을 바탕으로 지금 바로 '평가의 완성'을 경험해 보세요!

https://inf.run/k5fDe

댓글