PDF 청킹 문의

Question

안녕하세요. 강의 잘 수강하고 있습니다. 자체적으로 텍스트, 표, 시계열꺽은선그래프로 주로 구성된 pdf를 임베딩해서 RAG 기반의 LLM 서비스를 만들어 보고 싶은데요 표의 경우는 md 파일을 txt로 변환해서 저장하는 방법을 잘 알려주셨습니다만, 혹시 꺾은선그래프를 이미지처럼 저장해서 서비스에 활용할 수 있는 방법이 있을까요? 참고할만한 기술이나 좋은 아이디어 있으면 공유 혹은 조언해주시면 감사하겠습니다.

제이쓴 · Answer

안녕하세요, 좋은 질문 감사합니다. 멀티모달 임베딩을 시도할 수 있는데, 제가 테스트했던 결과는 별로였습니다. 그래도 작년에 해본거라 지금은 더 좋아졌을 수도 있어요. 시도해봤던 방법들 중에 가장 괜찮았던건 사실 인프런 AI 인턴의 답변처럼 이미지나 그래프의 설명을 임베딩해서 저장하는 것이었습니다. 멀티모달 모델을 돌려서 이미지나 그래프에 주석을 생성해서, 해당 주석을 임베딩하고, 답변을 생성할 때는 주석을 통해서 답변을 생성하지만 사용자에게는 해당 이미지나 그래프를 보여주는 식으로 진행했었습니다

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. vlvsu77님. PDF 파일 내 이미지나 시계열 그래프와 같은 요소들은 자연어로 표현하기 어려운 정보를 담고 있기 때문에, LLM을 활용하여 직접적으로 활용하려면 몇 가지 추가적인 처리가 필요합니다. 다음 방법들을 고려할 수 있습니다: 1. 이미지 처리 및 활용 이미지 변환 및 설명 첨가 : 이미지의 내용을 설명하는 텍스트를 추가하여 LLM이 이해할 수 있도록 만듭니다. 예를 들어, OpenAI의 Vision API 같은 도구를 사용하여 이미지를 설명하는 텍스트를 얻을 수 있습니다. 이 텍스트를 PDF의 나머지 텍스트와 함께 임베딩하여 검색 가능하도록 하면 좋습니다. 이미지 저장 및 링크 제공 : 이미지를 별도의 저장소(예: AWS S3) 등에 저장하고, 링크를 생성하여 응답 시 제공할 수 있습니다. 이를 통해 사용자가 이미지에 직접 접근하도록 할 수 있습니다. 2. 시계열 그래프 처리 텍스트 설명으로 변환 : 그래프의 주요 데이터를 텍스트로 변환하여 시각적 정보를 텍스트로 표현합니다. 예를 들어, &ldquo;그래프는 x월 y일에 최고값을 기록하며, 평균 값은 z입니다.&ldquo;와 같이 서술할 수 있습니다. 서버에서 동적 생성 및 제공 : 필요한 경우, 클라이언트 측에서 그래프를 생성할 수 있도록 데이터를 제공하거나, 서버에서 그래프 이미지를 생성하여 반환하는 방법도 고려할 수 있습니다. 각각의 방법은 데이터를 사용자에게 어떻게 제공할지, 그리고 각 데이터를 통해 어떤 인사이트를 의도하는지에 따라 선택될 수 있습니다. 장기적으로는 PDF의 시각적 요소를 텍스트와 함께 잘 조합하여 전달할 수 있는 방법을 찾는 것이 중요합니다. 유사한 질문과 답변에 대해서는 아래 URL을 참고해 주시기 바랍니다: - 이미지 데이터 학습 및 응답 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.