유사도 검색 차이

Question

안녕하세요. 수업을 듣고 실습도 같이 해보고 있습니다.
유사도 쿼리 관련해서 질문이 있어서 문의드렸습니다.
같은 upstatge 임베딩 모델을 사용했고 chunk size 등 같은 문서 spliter 를 사용했는데 유사도 검색에서 나오는 결과가 예시랑 다르게 나오는 이유가 무엇인가요?

tmdrb0572@naver.co · Answer

감사합니다.

제이쓴 · Answer

안녕하세요! 좋은 질문 감사합니다, 추측할 수 있는 부분은 2가지인데요, 강의가 작년에 촬영된 영상이다보니 소득세법을 새로 다운로드 받으셨다면 문서 자체가 변경되었을 가능성이있고 Upstage에서 제공하는 모델이 변경되었을 가능성이 있습니다 유사도 검색에는 2번이 더 큰 영향이 있을거라고 생각하는데, 공식문서를 보니 포인터가 변경되었을 수 있을 것 같습니다. https://console.upstage.ai/docs/capabilities/embeddings#what-models-does-upstage-provide

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. tmdrb0572@naver.com님. 유사도 검색 결과가 기대한 것과 다르게 나오는 경우, 여러 요소가 그 원인이 될 수 있습니다. 다음은 결과 차이에 영향을 줄 수 있는 몇 가지 주요 요인입니다: 임베딩 모델 및 처리 방법 : 임베딩 모델이 동일하더라도, 텍스트 전처리 방식(예: 특수문자 제거, 소문자 변환 등)에 따라 임베딩 결과가 달라질 수 있습니다. 벡터 인덱싱 및 검색 환경 : 벡터를 인덱싱하고 검색할 때의 환경적 요소(예: 사용한 라이브러리의 버전 또는 컴퓨팅 리소스)도 결과에 영향을 줄 수 있습니다. 데이터 스플릿 방식 : 문서를 쪼개는 방법, 즉 chunk_size 와 chunk_overlap 의 설정 값이 유사도 검색 결과에 영향을 미칠 수 있습니다. 같은 문서를 사용하더라도 설정에 따라 유사도가 다르게 측정될 수 있습니다. 검색 파라미터 변경 : k 값이나 유사도 임계값이 변화되면 검색 범위 및 결과가 달라질 수 있습니다. 검색 시 참조하는 문서의 수를 적절히 설정하는 것이 중요합니다. 문서의 양과 다양성 : 데이터셋 내 유사하거나 중복된 내용이 있다면, 이것이 검색 결과에 영향을 줄 수 있습니다. 문서가 많은 경우, 유사한 내용이 포함된 구문이 많아질 수 있습니다. 혹시라도 특정한 문서나 조건에서 반복적으로 문제가 발생한다면, 데이터를 재구성하거나 파라미터를 여러 번 조정해보시면서 가장 적합한 결과를 찾는 방식으로 문제를 해결하실 수 있습니다. 관련된 질문에 대한 더 많은 정보가 필요하시다면, 여기 에서 유사한 사례와 해결 방법을 확인하실 수 있습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.