agent 평가 관련 문의 드립니다.

Question

안녕하세요. 좋은 강의 잘 들었습니다. 몇가지 문의 드립니다. aevaluate 이 정상적이지 않아서 evaluate를 사용하는데, evaluate를 사용할때 wrapper 를 안쓰면 최종결과를 얻지 못할수 있어서 wrapper 를 사용한다고 하셨는데요. evaluate 의 첫번째 파라미터는 함수를 넘겨야 하니 run_agent_to_completion 를 자연스럽게 만들게 되지 않나요? run_agent_to_completion 를 안쓴다면 어떤식으로 evaluate 코드를 작성하게 되는지 궁금합니다. agent 에 따라, 질문에 대해 바로 답을 주는게 아니라 HITL 을 발생시키고, 사용자의 추가 정보에 따라 최종 답변을 주는 agent 가 있을수 있습니다. 이 경우 어떤식으로 평가를 하면 좋을까요? 강의에 사용하셨던 영상에서 몇몇 부분 링크를 참고하라고 하셨는데, 링크 정보를 어디서 얻을수 있을까요? 예를들면 아래와 같은 부분 입니다. (강의소개에 적어주신 노션과 깃헙에서는 못찾아서 여쭤봅니다.) 2강 - 4분 10초 경 Amazon 링크 4강 - 1분 8초 경 세일즈포스트 링크 " '운영에 배포할만한 가치가 있는 agent 인가?'를 평가한다 "는 말이 기억에 남습니다. 감사합니다.

제이쓴 · Answer

안녕하세요! 좋은 질문 감사합니다. 답변을 드려보자면 별도의 함수를 선언하지 않는다면 lambda를 쓰는게 가장 파이썬스러운게 아닌가 생각합니다. 다만 코드가 오히려 지저분해지지 않을까 싶네요. 공식문서에도 함수를 쓰는 걸로 업데이트가 된 걸 보면, 별도의 함수를 선언하는 것이 가장 적합한 것 같습니다 https://docs.langchain.com/langsmith/evaluate-llm-application#reference-code 저라면 답변의 정확도를 기본적으로 평가하고 대신 평가 데이터셋을 사람의 답변에 따라 여러가지로 구현해서 다양한 시나리오를 평가하는 식으로 구현할 것 같습니다(만약 사람의 답변이 중요하다면) 그리고 human-in-the-loop를 제대로 실행 하는지 (trajectory)를 추가로 평가할 것 같아요 제가 강의 슬라이드를 공유하지 않았군요, 덕분에 강의자료를 수정했습니다 감사합니다. 아마존 링크: https://docs.aws.amazon.com/machine-learning/latest/dg/evaluating_models.html 세일즈포스 논문링크: https://arxiv.org/abs/1806.08730 좋은 피드백 감사합니다!