inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

안정적인 AI 에이전트 서비스 운영을 위한 평가(Evaluation) 방법

Golden Dataset이란?

Golden Dataset 권장사항 부분 질문

46

비케이

작성한 질문수 1

0

안녕하세요 강사님. 질문이 있습니다.

 

Golden dataset이란 수업에서 (5:30초 가량)

부분인데요. 이부분이 이해가 갈 듯 말듯해서요. 혹 이런 예시가 맞을까요?

아래와 같은 질문 그리고 답변이 있다.

Q. 고구마는 무슨 색?

답변1. "자주색"
답변2. "외피의 경우 자황색을 띄며 내부 속살은 노란색을 띄어요."

이때 나의 평가와 LLM의 평가가 상이하기 때문에 이 간격을 줄이는 작업 (평가 LLM의 프롬프트를 조정)이 중요하고

너무 똑같이 만드는 것은 불가능하기 때문에 평균 정도를 맞추는 것이 바람직하다.

로 이해했는데 어느정도 제가 이해한 것이 맞는지 궁금합니다.. 감사합니다!

 

 

python langchain langgraph

답변 2

1

제이쓴

이해하신 내용이 정확합니다!

추가로 설명을 드리자면 너무 똑같이 만드는 것은 불가능하기도 하지만, 완전 똑같아지면 사실상 Golden Dataset에 치중된 평가가 되어버려서 오히려 평가의 객관성을 잃거나 새로운 유형의 답변을 유연하게 측정하지 못하는 '과적합(Overfitting)' 문제가 발생할 수 있습니다. (overfitting에 대해서는 강의에서 추가로 설명 드립니다)

즉, 특정 데이터셋에만 지나치게 맞춰진 편향된 잣대를 갖게 되기 때문에, 전체적인 평가의 일관성과 경향성을 맞추는 것이 실질적인 성능 개선에 훨씬 효과적입니다.

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 비케이님.

Golden Dataset에 대한 질문을 해주셨네요. 고객 질문에 대한 평가와 LLM이 제공하는 평가 사이의 간격을 줄이기 위한 과정에 대해 궁금해하신 것 같습니다.

Golden Dataset 설명

Golden Dataset은 AI 시스템에서 특정 질문에 대한 ‘정답지’ 역할을 합니다. 이 데이터셋은 AI가 답변을 생성하는 데 있어서 목표 지점(정답)을 명확히 설정하는 것에 목적이 있습니다.

질의 응답 예시

질문에서 제시하신 예시는 매우 적절합니다. 질문에 대한 답변 평가 점수를 사람이 주고, LLM도 별도의 평가 점수를 부여하게 됩니다. 이 경우:

  • 사람의 평가: 사람이 해당 답변이 얼마나 좋은지를 직접 평가하면서 점수를 매긴다.

  • LLM의 평가: LLM이 자동으로 답변의 질을 평가하고 점수를 부여한다.

평가 프롬프트 조정

평가 LLM의 프롬프트를 조정하여 사람이 부여한 점수와 LLM이 부여한 점수가 유사해지도록 맞춰가는 과정입니다. 사람과 LLM의 평가 간의 간극을 줄이는 이유는 LLM의 평가를 신뢰할 수 있도록 개선하기 위해서입니다. 이렇게 되면 LLM의 평가가 실제 사용자 경험에 더 가깝도록 조정할 수 있습니다.

완전히 똑같이 맞추는 것은 어렵겠지만, 평균을 맞춰가면서 평가 기준을 동일하게 하는 것이 도움이 될 것입니다.

관련된 질문으로는 이 링크를 참고하시면, 유사한 문제를 다루었던 다른 질문과 답변을 보실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

작업형1 강의 수강 완료 후..

0

5

0

한글 변수의 한글 상태를 만드는 법?

0

9

0

작업형1 모의문제 4번에 3)문제 질문

0

15

2

강의 수강 순서

0

14

1

coders 사이트 로그인이 안돼요

0

21

2

호스트 테스트 주소 복사?

0

17

1

이상치 전처리 작업

0

21

2

import 오류

0

20

0

명령팔레트에서 오류

0

32

3

평가결과값 문의

0

27

2

온톨로지 활용

0

24

2

제공해주신 레포가 Windows 환경에 너무 비친화적입니다.

0

25

2

Sonauto V2 text to audio

0

19

2

Part2 자료에 대한 질문입니다.

0

23

2

시계열 데이터 날짜와 시간 format

0

31

2

자동화 프로그램 프로젝트

0

23

1

도커 컨테이너 생성 과정 오류 질문입니다.

0

50

2

평가지표 F1 스코어 질문드립니다.

0

24

2

강의 일정

0

35

2

replit에서 developer frameworks가 안보여요

0

28

2

Notion 권한 승인 요청 드립니다.

0

32

2

가상환경 설정시 문의

0

32

2

개발환경에 대해셔 설명부탁드립니다.

0

23

1

강의자료 오류

0

54

1