실무에 바로 적용하는 AWS 배포 강의

[강의 오픈] AI 에이전트의 성능을 증명하는 법: 평가(Evaluation) 심화 실습

안녕하세요! 지난번 제 첫 책 출간 소식과 함께 예고해 드렸던 'AI 에이전트 평가(Evaluation)' 심화 강의가 드디어 오픈되었습니다!🎉

지난번 남겨드린 메시지에서 말씀드렸듯, 책을 통해 평가에 관한 '이론적인 토대와 핵심 원칙'을 다졌다면, 이번 강의는 실무 환경에서 이를 어떻게 자동화하고 시스템으로 구축할 것인가에 대한 완벽한 실습 및 적용 가이드입니다.

첨부된 목차에서 보실 수 있듯, 주관적인 테스트를 넘어 객관적인 지표로 에이전트를 관리하기 위한 핵심 내용들을 꽉꽉 채워 담았습니다.

📌 주요 강의 내용

Golden Dataset 구축의 모든 것: RAGAS 라이브러리, LangSmith, 커스텀 에이전트 및 Claude Code Agent Skill을 활용한 효율적인 평가 데이터셋 생성 기법
다각도 평가(Evaluation) 실습: 최종 답변의 정확도를 보는 e2e 평가부터, 문서를 잘 가져왔는지, 도구를 알맞은 순서대로(Trajectory) 활용했는지 검증하는 Component Evaluation까지
고급 평가 지표 및 프레임워크 적용: Anthropic 권장 에이전트 평가 지표, 그리고 AI의 잠재력(pass@k)과 일관성(pass^k)을 측정하는 방법
지속 가능한 평가 시스템 구축 방안

단순히 에이전트를 '구현'하는 것을 넘어, 프로덕션 레벨에서 내 AI가 "항상 올바르게 동작하는가?"를 데이터로 '증명'하고 최적화하고 싶으신 분들께 가장 확실한 길잡이가 될 것입니다. 책으로 단단한 기본기를 다지셨다면, 이제 이어지는 이번 실습 강의를 통해 '평가의 완성'을 직접 경험해 보세요!

출시 기념 얼리버드 30% 할인 중이니, 책으로 다진 탄탄한 이론을 바탕으로 지금 바로 '평가의 완성'을 경험해 보세요!

https://inf.run/k5fDe