inflearn logo
강의

Course

Instructor

Evaluation methods for stable AI agent service operation

What is a Golden Dataset?

Golden Dataset 권장사항 부분 질문

28

infbk

1 asked

0

안녕하세요 강사님. 질문이 있습니다.

 

Golden dataset이란 수업에서 (5:30초 가량)

부분인데요. 이부분이 이해가 갈 듯 말듯해서요. 혹 이런 예시가 맞을까요?

아래와 같은 질문 그리고 답변이 있다.

Q. 고구마는 무슨 색?

답변1. "자주색"
답변2. "외피의 경우 자황색을 띄며 내부 속살은 노란색을 띄어요."

이때 나의 평가와 LLM의 평가가 상이하기 때문에 이 간격을 줄이는 작업 (평가 LLM의 프롬프트를 조정)이 중요하고

너무 똑같이 만드는 것은 불가능하기 때문에 평균 정도를 맞추는 것이 바람직하다.

로 이해했는데 어느정도 제가 이해한 것이 맞는지 궁금합니다.. 감사합니다!

 

 

python langchain langgraph

Answer 2

1

jasonkang

이해하신 내용이 정확합니다!

추가로 설명을 드리자면 너무 똑같이 만드는 것은 불가능하기도 하지만, 완전 똑같아지면 사실상 Golden Dataset에 치중된 평가가 되어버려서 오히려 평가의 객관성을 잃거나 새로운 유형의 답변을 유연하게 측정하지 못하는 '과적합(Overfitting)' 문제가 발생할 수 있습니다. (overfitting에 대해서는 강의에서 추가로 설명 드립니다)

즉, 특정 데이터셋에만 지나치게 맞춰진 편향된 잣대를 갖게 되기 때문에, 전체적인 평가의 일관성과 경향성을 맞추는 것이 실질적인 성능 개선에 훨씬 효과적입니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 비케이님.

Golden Dataset에 대한 질문을 해주셨네요. 고객 질문에 대한 평가와 LLM이 제공하는 평가 사이의 간격을 줄이기 위한 과정에 대해 궁금해하신 것 같습니다.

Golden Dataset 설명

Golden Dataset은 AI 시스템에서 특정 질문에 대한 ‘정답지’ 역할을 합니다. 이 데이터셋은 AI가 답변을 생성하는 데 있어서 목표 지점(정답)을 명확히 설정하는 것에 목적이 있습니다.

질의 응답 예시

질문에서 제시하신 예시는 매우 적절합니다. 질문에 대한 답변 평가 점수를 사람이 주고, LLM도 별도의 평가 점수를 부여하게 됩니다. 이 경우:

  • 사람의 평가: 사람이 해당 답변이 얼마나 좋은지를 직접 평가하면서 점수를 매긴다.

  • LLM의 평가: LLM이 자동으로 답변의 질을 평가하고 점수를 부여한다.

평가 프롬프트 조정

평가 LLM의 프롬프트를 조정하여 사람이 부여한 점수와 LLM이 부여한 점수가 유사해지도록 맞춰가는 과정입니다. 사람과 LLM의 평가 간의 간극을 줄이는 이유는 LLM의 평가를 신뢰할 수 있도록 개선하기 위해서입니다. 이렇게 되면 LLM의 평가가 실제 사용자 경험에 더 가깝도록 조정할 수 있습니다.

완전히 똑같이 맞추는 것은 어렵겠지만, 평균을 맞춰가면서 평가 기준을 동일하게 하는 것이 도움이 될 것입니다.

관련된 질문으로는 이 링크를 참고하시면, 유사한 문제를 다루었던 다른 질문과 답변을 보실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

섹션2-11 내용중 tool_call

0

15

1

질문 드립니다.

0

30

2

max token을 제한하는게 왜 성능을 개선하게 되는걸까요?

0

24

2

노션 링크

0

25

3

26년 1회 실기 해설 강의

0

33

2

노션 권한요청하였습니다 언제쯤 볼수있나요

0

28

2

AAFM CWM_LEVEL_2 Exam Questions 2026: Right Preparation Method

0

20

1

강의 내용 관련 질문드립니다~

0

28

2

퍼플렉시티 최소 결제단위 50달러로 바뀐 것 같습니다.

0

30

2

수강 연장 문의

0

24

1

강의자료 일괄 다운로드

0

31

2

5번 강의 1분까지 완료 후 오류가 뜹니다

0

22

2

list 문제 질문드립니다~

0

25

2

for, range 추가 방법

0

28

0

빅분기 실기 12회 재도전

0

37

1

노션 접속 권한 요청드립니다.

0

23

2

강의 기간 연장 가능여부 검토 요청건

0

27

1

수강기간 연장 문의 드립니다

0

33

2

n8n으로 context를 고려한 이메일 답장 드래프트 작성 봇 생성 강의

0

33

2

reg.get("http://www.naver.com")

0

22

2

강의자료가 다운이 안됩니다.

0

17

1

윈도우 사용자 환경설정

0

25

2

claude plugin 방법 자세히 부탁드려요

0

33

2

강의자료 오류

0

32

1