강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

내향적인 개발자 IDev님의 프로필 이미지
내향적인 개발자 IDev

작성한 질문수

RAG를 활용한 LLM Application 개발 (feat. LangChain)

3.3 LangChain 없이 구성하는 RAG의 불편함

chunk_overlap은 할수가 없나요?

작성

·

20

·

수정됨

0

langchain으로 했을때는 chunk_overlap이라는 옵션이있어서 글자의 중복을해서 답변정확도를 올린다고이해했습니다. 그리고 현재 강의에서는 토큰이 18만이기 때문에 이거를 1500토큰으로 자르는거까지 코드에 반영이된거같은데 중복도는 어쩔수가 없는걸까요?

답변 2

1

강병진님의 프로필 이미지
강병진
지식공유자

안녕하세요! 제가 질문을 잘 이해하지 못한것같은데 중복도는 어떤걸 말씀하시는걸까요?

말씀하신 것처럼 chunk_overlap 을 활용하게 되면 chunk를 자를 때 의도적으로 약간 겹치게해서 문맥을 유지하게 됩니다. 자세한 내용을 확인하실 수 있는 링크들을 전달 드립니다!

  1. https://python.langchain.com/docs/how_to/recursive_text_splitter/

  2. https://wikidocs.net/233776

  3. https://chunkviz.up.railway.app/

안녕하세요 제가 질문을 추상적으로했네요. langchain에서는 chunk_overlap이라는 옵션이있는데 이거를 Langhchain 없이 구현할때는 chunk_overlap 옵션을 구현한 코드는 없는거같아서요.

강병진님의 프로필 이미지
강병진
지식공유자

아 네네 맞습니다. 만약 split_text 라는 함수에 chunk_overlap을 추가한다면 이렇게 구현할 수 있을 것 같습니다.

import tiktoken 

def split_text(full_text, chunk_size, chunk_overlap=0):
    encoder = tiktoken.encoding_for_model("gpt-4o")
    total_encoding = encoder.encode(full_text)
    total_token_count = len(total_encoding)
    text_list = []
    
    i = 0
    while i < total_token_count:
        chunk = total_encoding[i: i + chunk_size]
        decoded = encoder.decode(chunk)
        text_list.append(decoded)
        i += chunk_size - chunk_overlap  
    
    return text_list

0

안녕하세요, 인프런 AI 인턴입니다. 내향적인 개발자 IDev님.

LangChain에서 chunk_overlap은 특정 텍스트를 처리할 때, 임베딩을 위한 텍스트 조각 사이에 일정 부분의 중복(overlap)을 허용하여 문맥을 보존하고, 더 나은 임베딩 및 검색 결과를 얻기 위한 옵션입니다. 이는 특히 긴 텍스트가 모델에 의해 처리될 때 의미가 흐트러지지 않도록 하기 위한 것입니다.

현재 강의에서는 유사한 원리로 텍스트를 처리해 토큰 수를 맞추고 있는 것으로 보입니다. 다만, Pinecone이나 OpenAI의 사용 제한으로 인해, 너무 큰 중복값을 설정하면 벡터 인덱스의 크기가 불필요하게 커져 문제가 발생할 수 있습니다.

해결 방안

  1. chunk_overlap 값 조정:

    • chunk_overlap의 값을 적절하게 설정해서, 문맥은 최대한 유지하면서 중복으로 인해 그 크기가 지나치게 커지지 않도록 하는 것이 중요합니다.
    • 예를 들어, chunk_size가 1500인 경우라면, chunk_overlap을 200 정도로 설정하여 문장의 자연스러운 흐름을 보장하면서 중복을 제한할 수 있습니다.
  2. 효율적인 문서 슬라이싱:

    • 문서의 길이와 중요 부분을 기준으로 슬라이싱을 수행하여, 중요한 정보를 잃지 않도록 합니다.
  3. 메모리 사용 최적화:

    • 벡터 검색 시스템의 한계를 고려하여 메모리 및 처리 시간을 최적화하는 방향으로 설계를 해야 합니다. 설정한 chunk_overlap이나 chunk_size가 시스템 처리 한계를 넘지 않도록 하는 것이 중요합니다.

유사한 문제를 겪고 계신 분들을 위해 기존 답변을 활용한 유사한 사례 및 해결 방법을 확인하시면 도움이 될 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

내향적인 개발자 IDev님의 프로필 이미지
내향적인 개발자 IDev

작성한 질문수

질문하기