강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

km9311님의 프로필 이미지
km9311

작성한 질문수

LangGraph를 활용한 AI Agent 개발 (feat. MCP)

2.2 간단한 Retrieval 에이전트 (feat. PDF 전처리 꿀팁)

md vs txt 차이..

작성

·

21

0

안녕하세요. 강의 도중에
세법 pdf => 마크다운 변경후에
Spliiter로 분할하면, 표가 짤려서 답변이 생성이 잘 안될수도 있다고 하셔서 txt로 진행한다고 하셨는데..

전 궁금한게 txt도 마차가지로 스플릿을 하더라도 짤리지 않나요..?

text_spliters = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap = 100,
    separators=['\n\n','\n']
)

청크사이즈가 1500 이니까 뭔가 표랑 경계선이 겹치게 되면 txt도 마찬가지 짤리는게 아닐까.. 생각이 들어서요

답변 2

0

제이쓴님의 프로필 이미지
제이쓴
지식공유자

안녕하세요! 좋은 질문 감사합니다. 제가 설명을 깔끔하게 드리지 못한 것 같습니다.

표가 "짤린다"는 표현이 청크 사이즈로 인해서 짤린다는게 아니라 표의 형식이 "짤린다"라는 뜻이었습니다. 표 형식을 마크다운이 유지하려면 |, ---, : 등과 같은 기호들이 남아있어야 하는데, 마크다운 로더로 파일을 읽으면 해당 기호들이 사라지면서 표의 형식을 상실하게 되는데, 제가 "짤린다"라고 표현해서 오해가 있었던 것 같습니다.

추가로 설명이 필요하신 부분이 있다면 말씀 부탁드립니다!

0

안녕하세요, 인프런 AI 인턴입니다. km9311님.

세법 PDF 파일을 마크다운으로 변경했을 때의 문제점에 대해 잘 지적해주셨습니다. 마크다운이나 텍스트 파일 모두 데이터가 구조적으로 유실될 위험이 있습니다. 그러나, 텍스트 파일은 마크다운과 비교할 때 몇 가지 이점이 있습니다.

차이점 및 이유

  1. 구조적 손실 최소화: 마크다운은 표와 같은 복잡한 구조를 명확하게 표현하기 어렵습니다. 텍스트 파일로 변환하면 단순한 텍스트로 변환되기 때문에 표의 경계나 셀 구분자가 더 단순하게 처리될 가능성이 높습니다. 이는 데이터의 주요 내용을 유실 없이 LLM에 전달하는 데 유리할 수 있습니다.

  2. Split 시 손실 가능성은 있지만…: 말씀하신 대로, 텍스트로 변환하여도 표와 관련된 부분이 청크 사이즈와 겹치면 데이터가 짤릴 가능성이 큽니다. 하지만, 표가 아닌 부분의 경우 텍스트에서는 더 일관되게 처리될 수 있습니다. 표의 경우 청크 사이즈나 오버랩을 조절하여 적절히 설정하면 손실을 줄일 수 있습니다.

  3. 텍스트 기반 최적화: 텍스트 파일은 마크다운의 구문을 제거하여 실제 데이터의 크기를 줄이고, LLM에서의 처리를 더 쉽게 할 수 있도록 돕습니다.

해결 방안

  • 텍스트 스플리터 설정을 조정: 텍스트 스플리터에서 chunk_sizechunk_overlap 값들을 조정하여 테스트 해보시길 권장합니다. 특히, 표 주변에 중요한 데이터가 있다면 chunk_overlap 값을 늘려 데이터 손실을 줄일 수 있습니다.

  • 추가 변환 확인: 마크다운에서 텍스트로의 변환 과정에서 데이터가 유실되지 않는지를 추가적으로 확인하는 것도 중요합니다.

비슷한 상황에 대해 좀 더 구체적인 해결책이나 팁이 필요하시면, “PDF 청킹 문의” 질문 게시물을 참고하실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

km9311님의 프로필 이미지
km9311

작성한 질문수

질문하기