chunk_overlap은 할수가 없나요?
79
작성한 질문수 23
langchain으로 했을때는 chunk_overlap이라는 옵션이있어서 글자의 중복을해서 답변정확도를 올린다고이해했습니다. 그리고 현재 강의에서는 토큰이 18만이기 때문에 이거를 1500토큰으로 자르는거까지 코드에 반영이된거같은데 중복도는 어쩔수가 없는걸까요?
답변 2
1
안녕하세요! 제가 질문을 잘 이해하지 못한것같은데 중복도는 어떤걸 말씀하시는걸까요?
말씀하신 것처럼 chunk_overlap 을 활용하게 되면 chunk를 자를 때 의도적으로 약간 겹치게해서 문맥을 유지하게 됩니다. 자세한 내용을 확인하실 수 있는 링크들을 전달 드립니다!
0
안녕하세요 제가 질문을 추상적으로했네요. langchain에서는 chunk_overlap이라는 옵션이있는데 이거를 Langhchain 없이 구현할때는 chunk_overlap 옵션을 구현한 코드는 없는거같아서요.
1
아 네네 맞습니다. 만약 split_text 라는 함수에 chunk_overlap을 추가한다면 이렇게 구현할 수 있을 것 같습니다.
import tiktoken
def split_text(full_text, chunk_size, chunk_overlap=0):
encoder = tiktoken.encoding_for_model("gpt-4o")
total_encoding = encoder.encode(full_text)
total_token_count = len(total_encoding)
text_list = []
i = 0
while i < total_token_count:
chunk = total_encoding[i: i + chunk_size]
decoded = encoder.decode(chunk)
text_list.append(decoded)
i += chunk_size - chunk_overlap
return text_list
0
안녕하세요, 인프런 AI 인턴입니다. 내향적인 개발자 IDev님.
LangChain에서 chunk_overlap은 특정 텍스트를 처리할 때, 임베딩을 위한 텍스트 조각 사이에 일정 부분의 중복(overlap)을 허용하여 문맥을 보존하고, 더 나은 임베딩 및 검색 결과를 얻기 위한 옵션입니다. 이는 특히 긴 텍스트가 모델에 의해 처리될 때 의미가 흐트러지지 않도록 하기 위한 것입니다.
현재 강의에서는 유사한 원리로 텍스트를 처리해 토큰 수를 맞추고 있는 것으로 보입니다. 다만, Pinecone이나 OpenAI의 사용 제한으로 인해, 너무 큰 중복값을 설정하면 벡터 인덱스의 크기가 불필요하게 커져 문제가 발생할 수 있습니다.
해결 방안
chunk_overlap값 조정:chunk_overlap의 값을 적절하게 설정해서, 문맥은 최대한 유지하면서 중복으로 인해 그 크기가 지나치게 커지지 않도록 하는 것이 중요합니다.
- 예를 들어,
chunk_size가 1500인 경우라면,chunk_overlap을 200 정도로 설정하여 문장의 자연스러운 흐름을 보장하면서 중복을 제한할 수 있습니다.
효율적인 문서 슬라이싱:
- 문서의 길이와 중요 부분을 기준으로 슬라이싱을 수행하여, 중요한 정보를 잃지 않도록 합니다.
- 문서의 길이와 중요 부분을 기준으로 슬라이싱을 수행하여, 중요한 정보를 잃지 않도록 합니다.
메모리 사용 최적화:
- 벡터 검색 시스템의 한계를 고려하여 메모리 및 처리 시간을 최적화하는 방향으로 설계를 해야 합니다. 설정한
chunk_overlap이나chunk_size가 시스템 처리 한계를 넘지 않도록 하는 것이 중요합니다.
- 벡터 검색 시스템의 한계를 고려하여 메모리 및 처리 시간을 최적화하는 방향으로 설계를 해야 합니다. 설정한
유사한 문제를 겪고 계신 분들을 위해 기존 답변을 활용한 유사한 사례 및 해결 방법을 확인하시면 도움이 될 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
온톨로지 활용
0
44
2
ollama설치해서 llama로 돌려도 되나요?
0
46
2
소득세법 docx 파일 공유 요청건
0
95
1
EXAONE 모델 불러오기 안되는 문제
0
94
2
[5.1 강의] LLM Evaluator에 Upstage를 사용하는 방법 + 변경된 Langsmith Docs를 참고하여 구현하는 방법 공유
0
125
2
강의 9에 QA관련된 import가 되지 않네요
0
125
2
🚨 python3.14 를 쓰고 계시면 chroma 에서 ConfigError 가 발생합니다.
1
224
1
강의와 책 관련 질문
0
96
1
문서 전처리 고민
0
121
1
RAG 배포 질문드립니다
0
106
1
강의 내용과는 별개로 궁금한 점이 있습니다
0
98
2
폐쇄망 챗봇 모델
0
101
1
AI agent 쿠폰
0
99
2
저는 왜 그대로 했는데 답변이 틀리게 나오는지 모르겠네요
0
109
2
langchain howto/sequence는 지금 doc 공식 사이트 어디서 확인할 수 있나요?
1
100
1
new_question에 대한 답 출력
0
80
2
랭체인 라이브러리
0
159
2
[LangGraph를 활용한 AI Agent 개발] 쿠폰 유효기간
0
111
1
postgresql의 pgvector 벡터는 어떤가요?
0
383
2
doc관련
0
144
2
load_dotenv() 실행 False
0
103
1
RAG 답변 개선을 위한 정답지 활용 구조 검토 요청
0
125
2
3.2 from langchain.chains ~ 에서 모듈을 찾지 못할 때.
2
429
2
강의 완료 오류
0
94
1





