inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

RAG를 활용한 LLM Application 개발 (feat. LangChain)

3.4.1 Pinecone에 UpstageEmbedding을 활용한 데이터 적재

유사도 검색 차이

해결된 질문

76

tmdrb0572@naver.co

작성한 질문수 2

0

안녕하세요. 수업을 듣고 실습도 같이 해보고 있습니다.
유사도 쿼리 관련해서 질문이 있어서 문의드렸습니다.
같은 upstatge 임베딩 모델을 사용했고 chunk size 등 같은 문서 spliter 를 사용했는데 유사도 검색에서 나오는 결과가 예시랑 다르게 나오는 이유가 무엇인가요?

vector-database llm langchain rag openai-api

답변 3

1

tmdrb0572@naver.co

감사합니다.

 

1

제이쓴

안녕하세요! 좋은 질문 감사합니다, 추측할 수 있는 부분은 2가지인데요,

  1. 강의가 작년에 촬영된 영상이다보니 소득세법을 새로 다운로드 받으셨다면 문서 자체가 변경되었을 가능성이있고

  2. Upstage에서 제공하는 모델이 변경되었을 가능성이 있습니다

유사도 검색에는 2번이 더 큰 영향이 있을거라고 생각하는데, 공식문서를 보니 포인터가 변경되었을 수 있을 것 같습니다.

https://console.upstage.ai/docs/capabilities/embeddings#what-models-does-upstage-provide

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. tmdrb0572@naver.com님.

유사도 검색 결과가 기대한 것과 다르게 나오는 경우, 여러 요소가 그 원인이 될 수 있습니다. 다음은 결과 차이에 영향을 줄 수 있는 몇 가지 주요 요인입니다:

  1. 임베딩 모델 및 처리 방법:

    • 임베딩 모델이 동일하더라도, 텍스트 전처리 방식(예: 특수문자 제거, 소문자 변환 등)에 따라 임베딩 결과가 달라질 수 있습니다.
  2. 벡터 인덱싱 및 검색 환경:

    • 벡터를 인덱싱하고 검색할 때의 환경적 요소(예: 사용한 라이브러리의 버전 또는 컴퓨팅 리소스)도 결과에 영향을 줄 수 있습니다.
  3. 데이터 스플릿 방식:

    • 문서를 쪼개는 방법, 즉 chunk_sizechunk_overlap의 설정 값이 유사도 검색 결과에 영향을 미칠 수 있습니다. 같은 문서를 사용하더라도 설정에 따라 유사도가 다르게 측정될 수 있습니다.
  4. 검색 파라미터 변경:

    • k 값이나 유사도 임계값이 변화되면 검색 범위 및 결과가 달라질 수 있습니다. 검색 시 참조하는 문서의 수를 적절히 설정하는 것이 중요합니다.
  5. 문서의 양과 다양성:

    • 데이터셋 내 유사하거나 중복된 내용이 있다면, 이것이 검색 결과에 영향을 줄 수 있습니다. 문서가 많은 경우, 유사한 내용이 포함된 구문이 많아질 수 있습니다.

혹시라도 특정한 문서나 조건에서 반복적으로 문제가 발생한다면, 데이터를 재구성하거나 파라미터를 여러 번 조정해보시면서 가장 적합한 결과를 찾는 방식으로 문제를 해결하실 수 있습니다.

관련된 질문에 대한 더 많은 정보가 필요하시다면, 여기에서 유사한 사례와 해결 방법을 확인하실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

온톨로지 활용

0

44

2

ollama설치해서 llama로 돌려도 되나요?

0

46

2

소득세법 docx 파일 공유 요청건

0

96

1

EXAONE 모델 불러오기 안되는 문제

0

95

2

[5.1 강의] LLM Evaluator에 Upstage를 사용하는 방법 + 변경된 Langsmith Docs를 참고하여 구현하는 방법 공유

0

125

2

강의 9에 QA관련된 import가 되지 않네요

0

125

2

🚨 python3.14 를 쓰고 계시면 chroma 에서 ConfigError 가 발생합니다.

1

224

1

강의와 책 관련 질문

0

96

1

문서 전처리 고민

0

121

1

RAG 배포 질문드립니다

0

106

1

강의 내용과는 별개로 궁금한 점이 있습니다

0

98

2

폐쇄망 챗봇 모델

0

102

1

AI agent 쿠폰

0

99

2

저는 왜 그대로 했는데 답변이 틀리게 나오는지 모르겠네요

0

109

2

langchain howto/sequence는 지금 doc 공식 사이트 어디서 확인할 수 있나요?

1

100

1

new_question에 대한 답 출력

0

80

2

랭체인 라이브러리

0

160

2

[LangGraph를 활용한 AI Agent 개발] 쿠폰 유효기간

0

111

1

postgresql의 pgvector 벡터는 어떤가요?

0

383

2

doc관련

0

144

2

load_dotenv() 실행 False

0

103

1

RAG 답변 개선을 위한 정답지 활용 구조 검토 요청

0

125

2

3.2 from langchain.chains ~ 에서 모듈을 찾지 못할 때.

2

429

2

강의 완료 오류

0

94

1