inflearn logo
강의

Course

Instructor

AI Agent Development Using LangGraph (feat. MCP)

2.2 Simple Retrieval Agent (feat. PDF Preprocessing Tips)

md vs txt 차이..

140

km9311

8 asked

0

안녕하세요. 강의 도중에
세법 pdf => 마크다운 변경후에
Spliiter로 분할하면, 표가 짤려서 답변이 생성이 잘 안될수도 있다고 하셔서 txt로 진행한다고 하셨는데..

전 궁금한게 txt도 마차가지로 스플릿을 하더라도 짤리지 않나요..?

text_spliters = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap = 100,
    separators=['\n\n','\n']
)

청크사이즈가 1500 이니까 뭔가 표랑 경계선이 겹치게 되면 txt도 마찬가지 짤리는게 아닐까.. 생각이 들어서요

프롬프트엔지니어링 llm ai-agent langgraph mcp

Answer 2

0

jasonkang

안녕하세요! 좋은 질문 감사합니다. 제가 설명을 깔끔하게 드리지 못한 것 같습니다.

표가 "짤린다"는 표현이 청크 사이즈로 인해서 짤린다는게 아니라 표의 형식이 "짤린다"라는 뜻이었습니다. 표 형식을 마크다운이 유지하려면 |, ---, : 등과 같은 기호들이 남아있어야 하는데, 마크다운 로더로 파일을 읽으면 해당 기호들이 사라지면서 표의 형식을 상실하게 되는데, 제가 "짤린다"라고 표현해서 오해가 있었던 것 같습니다.

추가로 설명이 필요하신 부분이 있다면 말씀 부탁드립니다!

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. km9311님.

세법 PDF 파일을 마크다운으로 변경했을 때의 문제점에 대해 잘 지적해주셨습니다. 마크다운이나 텍스트 파일 모두 데이터가 구조적으로 유실될 위험이 있습니다. 그러나, 텍스트 파일은 마크다운과 비교할 때 몇 가지 이점이 있습니다.

차이점 및 이유

  1. 구조적 손실 최소화: 마크다운은 표와 같은 복잡한 구조를 명확하게 표현하기 어렵습니다. 텍스트 파일로 변환하면 단순한 텍스트로 변환되기 때문에 표의 경계나 셀 구분자가 더 단순하게 처리될 가능성이 높습니다. 이는 데이터의 주요 내용을 유실 없이 LLM에 전달하는 데 유리할 수 있습니다.

  2. Split 시 손실 가능성은 있지만…: 말씀하신 대로, 텍스트로 변환하여도 표와 관련된 부분이 청크 사이즈와 겹치면 데이터가 짤릴 가능성이 큽니다. 하지만, 표가 아닌 부분의 경우 텍스트에서는 더 일관되게 처리될 수 있습니다. 표의 경우 청크 사이즈나 오버랩을 조절하여 적절히 설정하면 손실을 줄일 수 있습니다.

  3. 텍스트 기반 최적화: 텍스트 파일은 마크다운의 구문을 제거하여 실제 데이터의 크기를 줄이고, LLM에서의 처리를 더 쉽게 할 수 있도록 돕습니다.

해결 방안

  • 텍스트 스플리터 설정을 조정: 텍스트 스플리터에서 chunk_sizechunk_overlap 값들을 조정하여 테스트 해보시길 권장합니다. 특히, 표 주변에 중요한 데이터가 있다면 chunk_overlap 값을 늘려 데이터 손실을 줄일 수 있습니다.

  • 추가 변환 확인: 마크다운에서 텍스트로의 변환 과정에서 데이터가 유실되지 않는지를 추가적으로 확인하는 것도 중요합니다.

비슷한 상황에 대해 좀 더 구체적인 해결책이나 팁이 필요하시면, “PDF 청킹 문의” 질문 게시물을 참고하실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

마크다운을 텍스트 파일로 변환하기

0

9

1

max token을 제한하는게 왜 성능을 개선하게 되는걸까요?

0

41

2

pyzerox 유니코드 에러

0

75

2

영상 메타데이터 생성 관련 LLM 활용 질문

0

72

1

종합부동산세 부분 tool 사용 질문 드립니다.

0

74

2

uv sync 파이썬 버전문제 onnxruntime

-1

106

2

MCP를 활용해서 간단한 에이전트를 만들어보세요

0

97

1

PDF 형식

0

66

1

5.3 langchain-mcp-adpater를 활용한 MCP 도구 사용 tool_list 지연 사유

0

91

2

3.6 human_in_the_loop 3rd case

0

81

1

summary 를. 시스템메세지에 추가하는 부분에 관하여

0

70

3

병렬 처리 중 retrieve 관련 궁금한 사항

0

76

1

query 에 대한 answer 결과값이 나오지 않습니다.

0

95

2

사람과 관련된 표현이 없는데 rewrite 로 이동하지 않는경우

0

76

1

retriever 관련 질문

0

65

1

인터룹 관련 질문

0

49

2

2.4 Self-RAG 결과가 달라요!

0

78

2

OpenAI API 호출 때문에 발생하는 Error code: 429 문제

0

115

2

단순 도구 사용과 도구를 가진 에이전트를 사용하는 것의 차이가 궁금합니다.

0

88

1

LangChain과 LangGraph v1

0

137

1

2.4 강의 관련 질문(답변을 검증하는 self rag)

0

75

2

후속강의 문의

0

74

2

3.6 강의 관련 질문(interrupt 관련)

0

51

1

그래프 구현 조언 부탁드립니다!

0

77

2