유사도 검색 차이
안녕하세요. 수업을 듣고 실습도 같이 해보고 있습니다.
유사도 쿼리 관련해서 질문이 있어서 문의드렸습니다.
같은 upstatge 임베딩 모델을 사용했고 chunk size 등 같은 문서 spliter 를 사용했는데 유사도 검색에서 나오는 결과가 예시랑 다르게 나오는 이유가 무엇인가요?
답변 3
1
안녕하세요! 좋은 질문 감사합니다, 추측할 수 있는 부분은 2가지인데요,
강의가 작년에 촬영된 영상이다보니 소득세법을 새로 다운로드 받으셨다면 문서 자체가 변경되었을 가능성이있고
Upstage에서 제공하는 모델이 변경되었을 가능성이 있습니다
유사도 검색에는 2번이 더 큰 영향이 있을거라고 생각하는데, 공식문서를 보니 포인터가 변경되었을 수 있을 것 같습니다.
https://console.upstage.ai/docs/capabilities/embeddings#what-models-does-upstage-provide
0
안녕하세요, 인프런 AI 인턴입니다. tmdrb0572@naver.com님.
유사도 검색 결과가 기대한 것과 다르게 나오는 경우, 여러 요소가 그 원인이 될 수 있습니다. 다음은 결과 차이에 영향을 줄 수 있는 몇 가지 주요 요인입니다:
임베딩 모델 및 처리 방법:
- 임베딩 모델이 동일하더라도, 텍스트 전처리 방식(예: 특수문자 제거, 소문자 변환 등)에 따라 임베딩 결과가 달라질 수 있습니다.
- 임베딩 모델이 동일하더라도, 텍스트 전처리 방식(예: 특수문자 제거, 소문자 변환 등)에 따라 임베딩 결과가 달라질 수 있습니다.
벡터 인덱싱 및 검색 환경:
- 벡터를 인덱싱하고 검색할 때의 환경적 요소(예: 사용한 라이브러리의 버전 또는 컴퓨팅 리소스)도 결과에 영향을 줄 수 있습니다.
- 벡터를 인덱싱하고 검색할 때의 환경적 요소(예: 사용한 라이브러리의 버전 또는 컴퓨팅 리소스)도 결과에 영향을 줄 수 있습니다.
데이터 스플릿 방식:
- 문서를 쪼개는 방법, 즉
chunk_size와chunk_overlap의 설정 값이 유사도 검색 결과에 영향을 미칠 수 있습니다. 같은 문서를 사용하더라도 설정에 따라 유사도가 다르게 측정될 수 있습니다.
- 문서를 쪼개는 방법, 즉
검색 파라미터 변경:
k값이나 유사도 임계값이 변화되면 검색 범위 및 결과가 달라질 수 있습니다. 검색 시 참조하는 문서의 수를 적절히 설정하는 것이 중요합니다.
문서의 양과 다양성:
- 데이터셋 내 유사하거나 중복된 내용이 있다면, 이것이 검색 결과에 영향을 줄 수 있습니다. 문서가 많은 경우, 유사한 내용이 포함된 구문이 많아질 수 있습니다.
- 데이터셋 내 유사하거나 중복된 내용이 있다면, 이것이 검색 결과에 영향을 줄 수 있습니다. 문서가 많은 경우, 유사한 내용이 포함된 구문이 많아질 수 있습니다.
혹시라도 특정한 문서나 조건에서 반복적으로 문제가 발생한다면, 데이터를 재구성하거나 파라미터를 여러 번 조정해보시면서 가장 적합한 결과를 찾는 방식으로 문제를 해결하실 수 있습니다.
관련된 질문에 대한 더 많은 정보가 필요하시다면, 여기에서 유사한 사례와 해결 방법을 확인하실 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
온톨로지 활용
0
44
2
ollama설치해서 llama로 돌려도 되나요?
0
47
2
소득세법 docx 파일 공유 요청건
0
96
1
EXAONE 모델 불러오기 안되는 문제
0
95
2
[5.1 강의] LLM Evaluator에 Upstage를 사용하는 방법 + 변경된 Langsmith Docs를 참고하여 구현하는 방법 공유
0
125
2
강의 9에 QA관련된 import가 되지 않네요
0
125
2
🚨 python3.14 를 쓰고 계시면 chroma 에서 ConfigError 가 발생합니다.
1
224
1
강의와 책 관련 질문
0
96
1
문서 전처리 고민
0
121
1
RAG 배포 질문드립니다
0
106
1
강의 내용과는 별개로 궁금한 점이 있습니다
0
98
2
폐쇄망 챗봇 모델
0
102
1
AI agent 쿠폰
0
99
2
저는 왜 그대로 했는데 답변이 틀리게 나오는지 모르겠네요
0
109
2
langchain howto/sequence는 지금 doc 공식 사이트 어디서 확인할 수 있나요?
1
100
1
new_question에 대한 답 출력
0
80
2
랭체인 라이브러리
0
160
2
[LangGraph를 활용한 AI Agent 개발] 쿠폰 유효기간
0
111
1
postgresql의 pgvector 벡터는 어떤가요?
0
383
2
doc관련
0
144
2
load_dotenv() 실행 False
0
103
1
RAG 답변 개선을 위한 정답지 활용 구조 검토 요청
0
125
2
3.2 from langchain.chains ~ 에서 모듈을 찾지 못할 때.
2
429
2
강의 완료 오류
0
94
1





