작성
·
20
·
수정됨
0
langchain으로 했을때는 chunk_overlap이라는 옵션이있어서 글자의 중복을해서 답변정확도를 올린다고이해했습니다. 그리고 현재 강의에서는 토큰이 18만이기 때문에 이거를 1500토큰으로 자르는거까지 코드에 반영이된거같은데 중복도는 어쩔수가 없는걸까요?
답변 2
1
안녕하세요! 제가 질문을 잘 이해하지 못한것같은데 중복도는 어떤걸 말씀하시는걸까요?
말씀하신 것처럼 chunk_overlap
을 활용하게 되면 chunk를 자를 때 의도적으로 약간 겹치게해서 문맥을 유지하게 됩니다. 자세한 내용을 확인하실 수 있는 링크들을 전달 드립니다!
아 네네 맞습니다. 만약 split_text
라는 함수에 chunk_overlap
을 추가한다면 이렇게 구현할 수 있을 것 같습니다.
import tiktoken
def split_text(full_text, chunk_size, chunk_overlap=0):
encoder = tiktoken.encoding_for_model("gpt-4o")
total_encoding = encoder.encode(full_text)
total_token_count = len(total_encoding)
text_list = []
i = 0
while i < total_token_count:
chunk = total_encoding[i: i + chunk_size]
decoded = encoder.decode(chunk)
text_list.append(decoded)
i += chunk_size - chunk_overlap
return text_list
0
안녕하세요, 인프런 AI 인턴입니다. 내향적인 개발자 IDev님.
LangChain에서 chunk_overlap
은 특정 텍스트를 처리할 때, 임베딩을 위한 텍스트 조각 사이에 일정 부분의 중복(overlap)을 허용하여 문맥을 보존하고, 더 나은 임베딩 및 검색 결과를 얻기 위한 옵션입니다. 이는 특히 긴 텍스트가 모델에 의해 처리될 때 의미가 흐트러지지 않도록 하기 위한 것입니다.
현재 강의에서는 유사한 원리로 텍스트를 처리해 토큰 수를 맞추고 있는 것으로 보입니다. 다만, Pinecone이나 OpenAI의 사용 제한으로 인해, 너무 큰 중복값을 설정하면 벡터 인덱스의 크기가 불필요하게 커져 문제가 발생할 수 있습니다.
chunk_overlap
값 조정:
chunk_overlap
의 값을 적절하게 설정해서, 문맥은 최대한 유지하면서 중복으로 인해 그 크기가 지나치게 커지지 않도록 하는 것이 중요합니다.chunk_size
가 1500인 경우라면, chunk_overlap
을 200 정도로 설정하여 문장의 자연스러운 흐름을 보장하면서 중복을 제한할 수 있습니다.효율적인 문서 슬라이싱:
메모리 사용 최적화:
chunk_overlap
이나 chunk_size
가 시스템 처리 한계를 넘지 않도록 하는 것이 중요합니다.유사한 문제를 겪고 계신 분들을 위해 기존 답변을 활용한 유사한 사례 및 해결 방법을 확인하시면 도움이 될 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
안녕하세요 제가 질문을 추상적으로했네요. langchain에서는 chunk_overlap이라는 옵션이있는데 이거를 Langhchain 없이 구현할때는 chunk_overlap 옵션을 구현한 코드는 없는거같아서요.