Golden Dataset 권장사항 부분 질문

Question

안녕하세요 강사님. 질문이 있습니다.   Golden dataset이란 수업에서 (5:30초 가량) 어떤 질문에 대한 답변(정답지)에서 내가 준 평균값과 LLM이 준 평균값을 비교해서 유사해질 때까지 튜닝하는 것. 부분인데요. 이부분이 이해가 갈 듯 말듯해서요. 혹 이런 예시가 맞을까요? 아래와 같은 질문 그리고 답변이 있다. Q. 고구마는 무슨 색? 답변1. "자주색" 답변2. "외피의 경우 자황색을 띄며 내부 속살은 노란색을 띄어요." 나(사람)는 1번 답변에 대해 (1점), 2번 답변에 대해 (4점)으로 점수를 매긴 상태. 평가 LLM은 1번 답변에 대해 (3점) 2번 답변에 대해 (5점)으로 점수를 매긴 상태. 이때 나의 평가와 LLM의 평가가 상이하기 때문에 이 간격을 줄이는 작업 (평가 LLM의 프롬프트를 조정)이 중요하고 너무 똑같이 만드는 것은 불가능하기 때문에 평균 정도를 맞추는 것이 바람직하다. 로 이해했는데 어느정도 제가 이해한 것이 맞는지 궁금합니다.. 감사합니다!

제이쓴 · Answer

이해하신 내용이 정확합니다! 추가로 설명을 드리자면 너무 똑같이 만드는 것은 불가능하기도 하지만, 완전 똑같아지면 사실상 Golden Dataset에 치중된 평가가 되어버려서 오히려 평가의 객관성을 잃거나 새로운 유형의 답변을 유연하게 측정하지 못하는 '과적합(Overfitting)' 문제가 발생할 수 있습니다. (overfitting에 대해서는 강의에서 추가로 설명 드립니다) 즉, 특정 데이터셋에만 지나치게 맞춰진 편향된 잣대를 갖게 되기 때문에, 전체적인 평가의 일관성과 경향성을 맞추는 것이 실질적인 성능 개선에 훨씬 효과적입니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 비케이님. Golden Dataset에 대한 질문을 해주셨네요. 고객 질문에 대한 평가와 LLM이 제공하는 평가 사이의 간격을 줄이기 위한 과정에 대해 궁금해하신 것 같습니다. Golden Dataset 설명 Golden Dataset은 AI 시스템에서 특정 질문에 대한 &lsquo;정답지&rsquo; 역할을 합니다. 이 데이터셋은 AI가 답변을 생성하는 데 있어서 목표 지점(정답)을 명확히 설정하는 것에 목적이 있습니다. 질의 응답 예시 질문에서 제시하신 예시는 매우 적절합니다. 질문에 대한 답변 평가 점수를 사람이 주고, LLM도 별도의 평가 점수를 부여하게 됩니다. 이 경우: 사람의 평가 : 사람이 해당 답변이 얼마나 좋은지를 직접 평가하면서 점수를 매긴다. LLM의 평가 : LLM이 자동으로 답변의 질을 평가하고 점수를 부여한다. 평가 프롬프트 조정 평가 LLM의 프롬프트를 조정하여 사람이 부여한 점수와 LLM이 부여한 점수가 유사해지도록 맞춰가는 과정입니다. 사람과 LLM의 평가 간의 간극을 줄이는 이유는 LLM의 평가를 신뢰할 수 있도록 개선하기 위해서입니다. 이렇게 되면 LLM의 평가가 실제 사용자 경험에 더 가깝도록 조정할 수 있습니다. 완전히 똑같이 맞추는 것은 어렵겠지만, 평균을 맞춰가면서 평가 기준을 동일하게 하는 것이 도움이 될 것입니다. 관련된 질문으로는 이 링크 를 참고하시면, 유사한 문제를 다루었던 다른 질문과 답변을 보실 수 있습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.