agent 평가 관련 문의 드립니다.
12
작성한 질문수 4
안녕하세요. 좋은 강의 잘 들었습니다.
몇가지 문의 드립니다.
aevaluate 이 정상적이지 않아서 evaluate를 사용하는데, evaluate를 사용할때 wrapper 를 안쓰면 최종결과를 얻지 못할수 있어서 wrapper 를 사용한다고 하셨는데요. evaluate 의 첫번째 파라미터는 함수를 넘겨야 하니 run_agent_to_completion 를 자연스럽게 만들게 되지 않나요? run_agent_to_completion 를 안쓴다면 어떤식으로 evaluate 코드를 작성하게 되는지 궁금합니다.
agent 에 따라, 질문에 대해 바로 답을 주는게 아니라 HITL 을 발생시키고, 사용자의 추가 정보에 따라 최종 답변을 주는 agent 가 있을수 있습니다. 이 경우 어떤식으로 평가를 하면 좋을까요?
강의에 사용하셨던 영상에서 몇몇 부분 링크를 참고하라고 하셨는데, 링크 정보를 어디서 얻을수 있을까요? 예를들면 아래와 같은 부분 입니다. (강의소개에 적어주신 노션과 깃헙에서는 못찾아서 여쭤봅니다.)
2강 - 4분 10초 경 Amazon 링크
4강 - 1분 8초 경 세일즈포스트 링크
" '운영에 배포할만한 가치가 있는 agent 인가?'를 평가한다 "는 말이 기억에 남습니다.
감사합니다.
답변 1
0
안녕하세요! 좋은 질문 감사합니다. 답변을 드려보자면
별도의 함수를 선언하지 않는다면 lambda를 쓰는게 가장 파이썬스러운게 아닌가 생각합니다. 다만 코드가 오히려 지저분해지지 않을까 싶네요. 공식문서에도 함수를 쓰는 걸로 업데이트가 된 걸 보면, 별도의 함수를 선언하는 것이 가장 적합한 것 같습니다 https://docs.langchain.com/langsmith/evaluate-llm-application#reference-code
저라면 답변의 정확도를 기본적으로 평가하고
대신 평가 데이터셋을 사람의 답변에 따라 여러가지로 구현해서 다양한 시나리오를 평가하는 식으로 구현할 것 같습니다(만약 사람의 답변이 중요하다면)
그리고
human-in-the-loop를 제대로 실행 하는지 (trajectory)를 추가로 평가할 것 같아요
제가 강의 슬라이드를 공유하지 않았군요, 덕분에 강의자료를 수정했습니다 감사합니다.
좋은 피드백 감사합니다!
원핫인코딩과 레이블 인코딩에서 concat
0
17
2
제2유형 질문입니다.
0
24
2
WSL에서 Airflow 실행 시 로컬 venv 라이브러리 사용 여부 및 관리 방법
0
12
2
C()
0
22
2
작업형 2에서 strafity 적용 유무
0
27
2
수강 기간 연장 가능 여부 문의드립니다.
0
22
1
ols
0
25
2
2유형 작성관련 질문(일반 심화)
0
22
2
2유형 작성관련 질문
0
19
2
2유형 object컬럼 개수 다르면
0
24
2
코딩팡질문이요ㅠㅠ
0
23
2
관찰값과 기대값의 개념이 헷갈립니다.
0
13
2
작업형2 ID 컬럼 삭제 질문
0
23
2
2유형 작성관련 질문
0
21
2
memoryerror 질문
0
18
2
작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?
0
23
1
ID 삭제 필수 인가요?
0
20
3
띄어쓰기
0
14
1
7회 기출문제 작업형1번 df 변환 후 저장되는 방식 질문
0
20
2
매일 사용시 토큰사용량
1
21
2
3 유형 귀무가설, 대립가설
0
22
2
공부 순서
0
13
1
강의자료 오류
0
68
1
Golden Dataset 권장사항 부분 질문
0
69
2





