inflearn logo
강의

講義

知識共有

RAGマスター:基礎から上級技法まで(feat. LangChain)

RAG 検索器 1 - Semantic Search (VectorStore Retriever)

검색기 관련 질문드립니다.

86

main33730814

投稿した質問数 8

0

안녕하세요, Langchain RAG 강의 잘 듣고 있습니다.

 

데이터셋이 방대해질 경우 분명 시간이 지나면서 이제는 사용되지 않은 정보 구식의 정보라고 해야할까요? 그런 것들이 생기는데, 그런 데이터들은 어떻게 필터가 되는지 궁금합니다.

 

예)

  1. Python 2.xx 버전 문서 저장

  1. Python 3.xx 버전으로 신규 업데이트

 

분명 검색을 할 때 동일하게 겹치는 내용이라면 1번과 2번 모두 가져올 것 같은데요! 이 경우 최신 버전으로만 불러올 수 있게 가능한가요??

python 챗봇 llm langchain rag

回答 2

0

pdstudio

안녕하세요. 판다스 스튜디오입니다.

신구 문서를 모두 유지해야 하는 상황이라면, 메타데이터 필터링을 활용하는 것이 적절해 보입니다.

다음 랭체인 문서를 참고하세요.

https://python.langchain.com/docs/concepts/vectorstores/#metadata-filtering

 

감사합니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 윤님.

질문해 주신 LangChain RAG 시스템에서 오래된 데이터의 관리 방법에 대해 답변 드리겠습니다.

RAG 시스템은 주로 검색을 통해 정보를 추출하고, 이를 기반으로 응답을 생성합니다. 데이터의 최신성을 관리하고, 특정 버전에 해당하는 정보만을 가져오는 방식에는 여러 가지 전략을 사용할 수 있습니다.

  1. 타임스탬프 및 메타데이터 활용: 각 문서나 데이터 조각에 타임스탬프나 버전 정보를 포함시켜 이를 기준으로 필터링할 수 있습니다. 이렇게 하면 검색 쿼리를 구성할 때 특정 날짜 이후의 데이터만 가져오도록 설정이 가능합니다.

  2. 데이터 유지 관리 정책: 정기적으로 데이터셋을 갱신하고, 더 이상 유효하지 않거나 오래된 데이터를 제거하는 정책을 설정할 수 있습니다. 이를 통해 최신 데이터를 유지하고 필요에 따라 자동화된 스케줄링을 통해 데이터 클렌징 작업을 수행할 수 있습니다.

  3. 필터링 로직 추가: 검색 쿼리를 실행할 때 명시적으로 특정 버전 이상의 정보를 포함하라는 조건을 추가할 수 있습니다. 예를 들어, Python 3.xx 이상의 문서만 허용하도록 쿼리에 조건을 포함할 수 있습니다.

  4. 검색 엔진 설정 조정: RAG 시스템 내에서 사용할 수 있는 검색 엔진 설정을 조정하여, 최신성(recentness) 또는 특정 메타데이터에 가중치를 부여해 검색 결과에 반영하는 방법도 있습니다.

현실적인 사용 예로 Elasticsearch와 같은 검색 엔진을 사용할 경우, 문서의 메타데이터에 기반하여 검색 쿼리를 조정하여 최신 버전의 마이크로 데이터만을 대상으로 수행할 수 있습니다.

아래는 관련 질문에 대한 논의가 이루어진 게시물입니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

테스트데이터셋 평가지표 값 문제

0

47

1

언어 감지 및 검색 라우팅

0

48

2

동영상이 검은 화면으로 나옵니다.

0

62

2

강의가 진행되지 않습니다.

0

61

2

'팀 단위 AI 업무 혁신' 자문 관련하여 문의드리고자 합니다. (연락처 요청)

0

51

1

Rerank에 대해 질문드립니다.

0

64

2

Cross Encoder Reranker 임포트 에러 관련 내용입니다.

0

97

2

HuggingFaceCrossEncoder 임포트 에러

0

80

2

아나콘다랑 pytry없이. 단순 파이참에서 venv 설정해서 설치하는건 불가능하나요?

0

78

1

2.7 전체 RAG파이프라인 구성에서 4번째 줄 오류

0

77

1

rag 와 랭체인

0

108

2

score 기반 서치

0

48

2

KR.txt파일이 없습니다.

0

76

2

krag를 이용한 검색기법 평가관련 질문

0

74

2

MMR 관련 질문입니다.

0

83

1

Text_splitter관련 질문입니다.

0

58

2

오픈api key는 따로 구매해야되는 걸까요?

0

246

2

과거 채팅이력을 LLM에 줄때 포멧

0

71

1

OpenAIEmbeddings모델이 사용하는 토크나이저는 뭘까요?

0

170

2

ChatPromptTemplate의 from_messages로 메세지를 구성할 때 system은 어떻게 설정해야하나요?

0

93

2

create_retrieval_chain에서 context는 지정된 인자인가요?

0

60

1

vectorstore의 as_retriever와 similarity_search는 같은 로직인가요?, 사용되는 검색 알고리즘은 뭔가요?

0

88

2

evaluate_retrieval_at_K 함수 문의드립니다.

0

64

2

2-3 임베딩모델 에러

0

166

2