inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Phát triển AI Agent sử dụng LangGraph (feat. MCP)

2.2 Agent Retrieval đơn giản (feat. Mẹo xử lý trước PDF hữu ích)

마크다운을 텍스트 파일로 변환하기

12

Grit

1 câu hỏi đã được viết

0

안녕하세요. 아래 코드를 보면서 의문점이 생겼는데요.

import markdown
from bs4 import BeautifulSoup

text_path = './documents/income_tax.txt'

# 마크다운 파일을 읽어옵니다
with open(markdown_path, 'r', encoding='utf-8') as md_file:
    md_content = md_file.read()

# 마크다운 콘텐츠를 HTML로 변환합니다
html_content = markdown.markdown(md_content)

# HTML 콘텐츠를 파싱하여 텍스트만 추출합니다
soup = BeautifulSoup(html_content, 'html.parser')
text_content = soup.get_text()

# 추출한 텍스트를 텍스트 파일로 저장합니다
with open(text_path, 'w', encoding='utf-8') as txt_file:
    txt_file.write(text_content)

print("Markdown converted to plain text successfully!")


표 등 마크다운 문법을 살린 텍스트를 넣기 위해서라면, 그냥 마크다운을 텍스트 파일로 변환(확장자를 그냥 .txt로 변환하거나)하는 방식을 하면 될 것 같은데요.
왜 HTML로 변환했다 텍스트를 추출하는 방식으로 진행되는건가요?

프롬프트엔지니어링 llm ai-agent langgraph mcp

Câu trả lời 1

0

jasonkang

안녕하세요 좋은 질문 감사합니다. 토큰을 아끼려고 마크다운 형식들을 제외하고 txt로 저장하는 코드인데요, 말씀하신 것처럼 바로 txt로 변경하는게 오히려 더 좋겠다는 생각이 드네요.

토큰을 아끼는 것 보다 마크다운 형식을 남기고 형태를 보존하는 것이 LLM Context 주입에 더 유리할 것 같습니다. 좋은 피드백 감사합니다

max token을 제한하는게 왜 성능을 개선하게 되는걸까요?

0

42

2

pyzerox 유니코드 에러

0

75

2

영상 메타데이터 생성 관련 LLM 활용 질문

0

72

1

종합부동산세 부분 tool 사용 질문 드립니다.

0

74

2

uv sync 파이썬 버전문제 onnxruntime

-1

106

2

MCP를 활용해서 간단한 에이전트를 만들어보세요

0

97

1

PDF 형식

0

66

1

5.3 langchain-mcp-adpater를 활용한 MCP 도구 사용 tool_list 지연 사유

0

91

2

3.6 human_in_the_loop 3rd case

0

81

1

summary 를. 시스템메세지에 추가하는 부분에 관하여

0

70

3

병렬 처리 중 retrieve 관련 궁금한 사항

0

76

1

query 에 대한 answer 결과값이 나오지 않습니다.

0

96

2

사람과 관련된 표현이 없는데 rewrite 로 이동하지 않는경우

0

77

1

retriever 관련 질문

0

65

1

인터룹 관련 질문

0

49

2

2.4 Self-RAG 결과가 달라요!

0

79

2

md vs txt 차이..

0

140

2

OpenAI API 호출 때문에 발생하는 Error code: 429 문제

0

115

2

단순 도구 사용과 도구를 가진 에이전트를 사용하는 것의 차이가 궁금합니다.

0

88

1

LangChain과 LangGraph v1

0

137

1

2.4 강의 관련 질문(답변을 검증하는 self rag)

0

75

2

후속강의 문의

0

74

2

3.6 강의 관련 질문(interrupt 관련)

0

51

1

그래프 구현 조언 부탁드립니다!

0

77

2