agent 평가 관련 문의 드립니다.
23
4 asked
안녕하세요. 좋은 강의 잘 들었습니다.
몇가지 문의 드립니다.
aevaluate 이 정상적이지 않아서 evaluate를 사용하는데, evaluate를 사용할때 wrapper 를 안쓰면 최종결과를 얻지 못할수 있어서 wrapper 를 사용한다고 하셨는데요. evaluate 의 첫번째 파라미터는 함수를 넘겨야 하니 run_agent_to_completion 를 자연스럽게 만들게 되지 않나요? run_agent_to_completion 를 안쓴다면 어떤식으로 evaluate 코드를 작성하게 되는지 궁금합니다.
agent 에 따라, 질문에 대해 바로 답을 주는게 아니라 HITL 을 발생시키고, 사용자의 추가 정보에 따라 최종 답변을 주는 agent 가 있을수 있습니다. 이 경우 어떤식으로 평가를 하면 좋을까요?
강의에 사용하셨던 영상에서 몇몇 부분 링크를 참고하라고 하셨는데, 링크 정보를 어디서 얻을수 있을까요? 예를들면 아래와 같은 부분 입니다. (강의소개에 적어주신 노션과 깃헙에서는 못찾아서 여쭤봅니다.)
2강 - 4분 10초 경 Amazon 링크
4강 - 1분 8초 경 세일즈포스트 링크
" '운영에 배포할만한 가치가 있는 agent 인가?'를 평가한다 "는 말이 기억에 남습니다.
감사합니다.
Answer 1
0
안녕하세요! 좋은 질문 감사합니다. 답변을 드려보자면
별도의 함수를 선언하지 않는다면 lambda를 쓰는게 가장 파이썬스러운게 아닌가 생각합니다. 다만 코드가 오히려 지저분해지지 않을까 싶네요. 공식문서에도 함수를 쓰는 걸로 업데이트가 된 걸 보면, 별도의 함수를 선언하는 것이 가장 적합한 것 같습니다 https://docs.langchain.com/langsmith/evaluate-llm-application#reference-code
저라면 답변의 정확도를 기본적으로 평가하고
대신 평가 데이터셋을 사람의 답변에 따라 여러가지로 구현해서 다양한 시나리오를 평가하는 식으로 구현할 것 같습니다(만약 사람의 답변이 중요하다면)
그리고
human-in-the-loop를 제대로 실행 하는지 (trajectory)를 추가로 평가할 것 같아요
제가 강의 슬라이드를 공유하지 않았군요, 덕분에 강의자료를 수정했습니다 감사합니다.
좋은 피드백 감사합니다!
강의 자료
0
12
1
27:15 break 출력
0
11
1
kaggle notebook에 service key 설정이 누락된 것 같습니다
1
16
2
수업 노트가 안 보입니다.
0
21
1
Python formatter 설치
0
16
1
55강 파이썬에만있는 연산자들
0
24
2
55강의 파이썬에서만 있는 연산자들
0
20
2
주말에 실행할 경우 update_economic_data_in_background에 로직 변경 필요성
1
29
1
naver 글자 수집 오류 건
0
23
1
쥬피터 노트북이 실행이 안됩니다.
0
25
1
뒤로가기 버튼 같은 것이 있나요?
0
27
1
Replit 강의 자료가 안나와요
0
20
1
강의 연장 문의
0
31
1
프로그램 실행시간에 대한 질문
1
23
2
비중 및 매수 종목수 조정.
1
32
2
Claude api가 소식 동기화가 늦는 문제
1
41
2
[긴급요청2] 28강 동영상 오류(27강 음성 재생) 수정 예정일자를 알려주세요
0
26
1
codex에게 대용량 코드베이스를 인식 시키는 방법은 어떤게 있나요?
0
34
1
출력값 질문
0
31
2
슬롯 관련 문의
1
30
2
라이브 강의 녹화본은 어디에서 확인해 볼수 있을까요?
0
17
1
multi_tool_agent.py 에서 arxiv tool 에러
0
21
1
강의자료 오류
0
70
1
Golden Dataset 권장사항 부분 질문
0
79
2

