inflearn logo
강의

Course

Instructor

AI Agent Development Using LangGraph (feat. MCP)

2.2 Simple Retrieval Agent (feat. PDF Preprocessing Tips)

마크다운을 텍스트 파일로 변환하기

11

Grit

1 asked

0

안녕하세요. 아래 코드를 보면서 의문점이 생겼는데요.

import markdown
from bs4 import BeautifulSoup

text_path = './documents/income_tax.txt'

# 마크다운 파일을 읽어옵니다
with open(markdown_path, 'r', encoding='utf-8') as md_file:
    md_content = md_file.read()

# 마크다운 콘텐츠를 HTML로 변환합니다
html_content = markdown.markdown(md_content)

# HTML 콘텐츠를 파싱하여 텍스트만 추출합니다
soup = BeautifulSoup(html_content, 'html.parser')
text_content = soup.get_text()

# 추출한 텍스트를 텍스트 파일로 저장합니다
with open(text_path, 'w', encoding='utf-8') as txt_file:
    txt_file.write(text_content)

print("Markdown converted to plain text successfully!")


표 등 마크다운 문법을 살린 텍스트를 넣기 위해서라면, 그냥 마크다운을 텍스트 파일로 변환(확장자를 그냥 .txt로 변환하거나)하는 방식을 하면 될 것 같은데요.
왜 HTML로 변환했다 텍스트를 추출하는 방식으로 진행되는건가요?

프롬프트엔지니어링 llm ai-agent langgraph mcp

Answer 1

0

jasonkang

안녕하세요 좋은 질문 감사합니다. 토큰을 아끼려고 마크다운 형식들을 제외하고 txt로 저장하는 코드인데요, 말씀하신 것처럼 바로 txt로 변경하는게 오히려 더 좋겠다는 생각이 드네요.

토큰을 아끼는 것 보다 마크다운 형식을 남기고 형태를 보존하는 것이 LLM Context 주입에 더 유리할 것 같습니다. 좋은 피드백 감사합니다

max token을 제한하는게 왜 성능을 개선하게 되는걸까요?

0

42

2

pyzerox 유니코드 에러

0

75

2

영상 메타데이터 생성 관련 LLM 활용 질문

0

72

1

종합부동산세 부분 tool 사용 질문 드립니다.

0

74

2

uv sync 파이썬 버전문제 onnxruntime

-1

106

2

MCP를 활용해서 간단한 에이전트를 만들어보세요

0

97

1

PDF 형식

0

66

1

5.3 langchain-mcp-adpater를 활용한 MCP 도구 사용 tool_list 지연 사유

0

91

2

3.6 human_in_the_loop 3rd case

0

81

1

summary 를. 시스템메세지에 추가하는 부분에 관하여

0

70

3

병렬 처리 중 retrieve 관련 궁금한 사항

0

76

1

query 에 대한 answer 결과값이 나오지 않습니다.

0

96

2

사람과 관련된 표현이 없는데 rewrite 로 이동하지 않는경우

0

77

1

retriever 관련 질문

0

65

1

인터룹 관련 질문

0

49

2

2.4 Self-RAG 결과가 달라요!

0

79

2

md vs txt 차이..

0

140

2

OpenAI API 호출 때문에 발생하는 Error code: 429 문제

0

115

2

단순 도구 사용과 도구를 가진 에이전트를 사용하는 것의 차이가 궁금합니다.

0

88

1

LangChain과 LangGraph v1

0

137

1

2.4 강의 관련 질문(답변을 검증하는 self rag)

0

75

2

후속강의 문의

0

74

2

3.6 강의 관련 질문(interrupt 관련)

0

51

1

그래프 구현 조언 부탁드립니다!

0

77

2