인프런 커뮤니티 질문&답변
score 기반 서치
작성
·
15
답변 2
0
안녕하세요. 판다스 스튜디오입니다.
RAG 시스템에서 Score Threshold(유사도 임계값)을 설정할 때는 보수적인 접근이 적정하다고 생각합니다. 초기에는 0.75~0.8 정도의 높은 임계값으로 시작하여 관련성이 높은 문서만 검색되도록 하는 것이 안전합니다.
한편, 낮은 임계값으로 시작하면 관련 없는 문서가 검색 결과에 포함되어 LLM이 잘못된 정보를 기반으로 답변을 생성할 위험이 있습니다. 특히 잘못된 정보가 노이즈로 작용해서 환각(hallucination) 문제를 발생시키는 요인으로 작용할 수 있습니다.
실무적으로, 높은 임계값에서 시작하면 결과가 적더라도 품질이 보장되므로 시스템의 신뢰성을 확보할 수 있습니다. 이후 실제 사용 데이터와 사용자 피드백을 수집하면서 점진적으로 임계값을 낮춰가는 방식이 가장 안전합니다.
감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다. 모수혁님.
스코어 기반의 의미적 검색을 할 때, 특정 유사도 미만의 값을 결과에서 제외하는 것은 일반적인 관행입니다. 이는 검색의 정확도를 높이고, 사용자에게 의미 있는 결과를 제공하기 위함인데요. 보통 이러한 임계값(threshold)은 도메인과 프로젝트의 특성에 따라 조정될 수 있습니다.
보통의 기준:
0.6 이상: 강의에서 언급하신 0.6의 기준은 많은 경우에서 합리적인 초기 설정으로 간주됩니다. 0.6 이상의 유사도는 대체로 관련성이 높은 문서들을 의미하므로, 사용자에게 관련성 있는 결과를 제공하는 데 충분할 수 있습니다.
도메인 특성에 맞춰 조정: 만약 도메인 특성상 정밀도가 더욱 중요하다면, 임계값을 조금 더 높게 설정해서 불필요한 노이즈를 줄이는 것도 전략이 될 수 있습니다. 반대로, 검색 범위를 넓히고 싶다면 낮출 수 있습니다.
시험 및 최적화 필요: 항시 일정한 임계값이 정답인 것은 아닙니다. 실험적인 접근이 필요하며, 실제 사용자 피드백을 통해 조정하는 것이 좋습니다. 임계값을 조정하며 결과의 질의 변화(정확도, 재현율 등)를 측정하시길 권장드립니다.
관련하여 더 알아보실 수 있는 내용:
- 관련한 기준이나 설정에 대한 제안들을 참고하시려면 search 및 유사도 기반 필터링 관련 질문 모음에서 유사한 질문들과 설명을 찾아볼 수 있습니다. 또한, 다양한 임계값 설정에 대한 사용자들의 경험을 공유받을 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





