강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của km93113354
km93113354

câu hỏi đã được viết

Phát triển AI Agent sử dụng LangGraph (feat. MCP)

2.2 Agent Retrieval đơn giản (feat. Mẹo xử lý trước PDF hữu ích)

md vs txt 차이..

Viết

·

86

0

안녕하세요. 강의 도중에
세법 pdf => 마크다운 변경후에
Spliiter로 분할하면, 표가 짤려서 답변이 생성이 잘 안될수도 있다고 하셔서 txt로 진행한다고 하셨는데..

전 궁금한게 txt도 마차가지로 스플릿을 하더라도 짤리지 않나요..?

text_spliters = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap = 100,
    separators=['\n\n','\n']
)

청크사이즈가 1500 이니까 뭔가 표랑 경계선이 겹치게 되면 txt도 마찬가지 짤리는게 아닐까.. 생각이 들어서요

프롬프트엔지니어링llmai-agentlanggraphmcp

Câu trả lời 2

0

jasonkang님의 프로필 이미지
jasonkang
Người chia sẻ kiến thức

안녕하세요! 좋은 질문 감사합니다. 제가 설명을 깔끔하게 드리지 못한 것 같습니다.

표가 "짤린다"는 표현이 청크 사이즈로 인해서 짤린다는게 아니라 표의 형식이 "짤린다"라는 뜻이었습니다. 표 형식을 마크다운이 유지하려면 |, ---, : 등과 같은 기호들이 남아있어야 하는데, 마크다운 로더로 파일을 읽으면 해당 기호들이 사라지면서 표의 형식을 상실하게 되는데, 제가 "짤린다"라고 표현해서 오해가 있었던 것 같습니다.

추가로 설명이 필요하신 부분이 있다면 말씀 부탁드립니다!

0

안녕하세요, 인프런 AI 인턴입니다. km9311님.

세법 PDF 파일을 마크다운으로 변경했을 때의 문제점에 대해 잘 지적해주셨습니다. 마크다운이나 텍스트 파일 모두 데이터가 구조적으로 유실될 위험이 있습니다. 그러나, 텍스트 파일은 마크다운과 비교할 때 몇 가지 이점이 있습니다.

차이점 및 이유

  1. 구조적 손실 최소화: 마크다운은 표와 같은 복잡한 구조를 명확하게 표현하기 어렵습니다. 텍스트 파일로 변환하면 단순한 텍스트로 변환되기 때문에 표의 경계나 셀 구분자가 더 단순하게 처리될 가능성이 높습니다. 이는 데이터의 주요 내용을 유실 없이 LLM에 전달하는 데 유리할 수 있습니다.

  2. Split 시 손실 가능성은 있지만…: 말씀하신 대로, 텍스트로 변환하여도 표와 관련된 부분이 청크 사이즈와 겹치면 데이터가 짤릴 가능성이 큽니다. 하지만, 표가 아닌 부분의 경우 텍스트에서는 더 일관되게 처리될 수 있습니다. 표의 경우 청크 사이즈나 오버랩을 조절하여 적절히 설정하면 손실을 줄일 수 있습니다.

  3. 텍스트 기반 최적화: 텍스트 파일은 마크다운의 구문을 제거하여 실제 데이터의 크기를 줄이고, LLM에서의 처리를 더 쉽게 할 수 있도록 돕습니다.

해결 방안

  • 텍스트 스플리터 설정을 조정: 텍스트 스플리터에서 chunk_sizechunk_overlap 값들을 조정하여 테스트 해보시길 권장합니다. 특히, 표 주변에 중요한 데이터가 있다면 chunk_overlap 값을 늘려 데이터 손실을 줄일 수 있습니다.

  • 추가 변환 확인: 마크다운에서 텍스트로의 변환 과정에서 데이터가 유실되지 않는지를 추가적으로 확인하는 것도 중요합니다.

비슷한 상황에 대해 좀 더 구체적인 해결책이나 팁이 필요하시면, “PDF 청킹 문의” 질문 게시물을 참고하실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

Hình ảnh hồ sơ của km93113354
km93113354

câu hỏi đã được viết

Đặt câu hỏi