챗봇 성능 테스트를 하기에 좋은 플랫폼이 있을까요?

Question

현재 개인정보 배우미 챗봇을 다 만들고 테스트 중에 있습니다. 문서는 총 78개를 넣었고, 문서에서 관련 내용을 잘 찾아서 응답하고 있는데, 실제 문서와 응답을 대조해서 1차로 사람이 확인하는 방법 이외에 langsmith와 같이 성능을 측정하기 위한 플랫폼이 있는지 궁금 합니다. langsmith의 경우 챗봇 속도를 확인하고 각 항목당 어떻게 처리하는지 확인이 가능하나, 질문에 대한 정확도나 유사도를 보기 쉽게 확인하기는 조금 부족한것 같더라구요.. huggingface의 evaluate를 써봤으나, 단어, 구문 구조가 다르면 0점으로 평가될 가능성이 높아 적합하지 않아보입니다.. 혹 추천해주실 만한 플랫폼이 있으실까요?

제이쓴 · Answer

안녕하세요! 평가는 해당 도메인에 전문 지식을 갖춘 사람들이 하는 편이 제일 좋습니다. 업로드된 데이터를 기반으로 평가 데이터셋을 만들 수는 있지만, 결국 해당 데이터셋에 오류가 없는지는 결국 도메인 전문가가 판단해야하기 때문입니다. 저는 현재상황에서는 현업 전문가가 직접 평가를 위한 데이터셋을 구축하고 langsmith를 활용하는 편이 제일 괜찮은 것 같습니다