마크다운을 텍스트 파일로 변환하기
10
投稿した質問数 1
안녕하세요. 아래 코드를 보면서 의문점이 생겼는데요.
import markdown
from bs4 import BeautifulSoup
text_path = './documents/income_tax.txt'
# 마크다운 파일을 읽어옵니다
with open(markdown_path, 'r', encoding='utf-8') as md_file:
md_content = md_file.read()
# 마크다운 콘텐츠를 HTML로 변환합니다
html_content = markdown.markdown(md_content)
# HTML 콘텐츠를 파싱하여 텍스트만 추출합니다
soup = BeautifulSoup(html_content, 'html.parser')
text_content = soup.get_text()
# 추출한 텍스트를 텍스트 파일로 저장합니다
with open(text_path, 'w', encoding='utf-8') as txt_file:
txt_file.write(text_content)
print("Markdown converted to plain text successfully!")
표 등 마크다운 문법을 살린 텍스트를 넣기 위해서라면, 그냥 마크다운을 텍스트 파일로 변환(확장자를 그냥 .txt로 변환하거나)하는 방식을 하면 될 것 같은데요.
왜 HTML로 변환했다 텍스트를 추출하는 방식으로 진행되는건가요?
回答 1
0
안녕하세요 좋은 질문 감사합니다. 토큰을 아끼려고 마크다운 형식들을 제외하고 txt로 저장하는 코드인데요, 말씀하신 것처럼 바로 txt로 변경하는게 오히려 더 좋겠다는 생각이 드네요.
토큰을 아끼는 것 보다 마크다운 형식을 남기고 형태를 보존하는 것이 LLM Context 주입에 더 유리할 것 같습니다. 좋은 피드백 감사합니다
max token을 제한하는게 왜 성능을 개선하게 되는걸까요?
0
41
2
pyzerox 유니코드 에러
0
75
2
영상 메타데이터 생성 관련 LLM 활용 질문
0
72
1
종합부동산세 부분 tool 사용 질문 드립니다.
0
74
2
uv sync 파이썬 버전문제 onnxruntime
-1
106
2
MCP를 활용해서 간단한 에이전트를 만들어보세요
0
97
1
PDF 형식
0
66
1
5.3 langchain-mcp-adpater를 활용한 MCP 도구 사용 tool_list 지연 사유
0
91
2
3.6 human_in_the_loop 3rd case
0
81
1
summary 를. 시스템메세지에 추가하는 부분에 관하여
0
70
3
병렬 처리 중 retrieve 관련 궁금한 사항
0
76
1
query 에 대한 answer 결과값이 나오지 않습니다.
0
95
2
사람과 관련된 표현이 없는데 rewrite 로 이동하지 않는경우
0
77
1
retriever 관련 질문
0
65
1
인터룹 관련 질문
0
49
2
2.4 Self-RAG 결과가 달라요!
0
78
2
md vs txt 차이..
0
140
2
OpenAI API 호출 때문에 발생하는 Error code: 429 문제
0
115
2
단순 도구 사용과 도구를 가진 에이전트를 사용하는 것의 차이가 궁금합니다.
0
88
1
LangChain과 LangGraph v1
0
137
1
2.4 강의 관련 질문(답변을 검증하는 self rag)
0
75
2
후속강의 문의
0
74
2
3.6 강의 관련 질문(interrupt 관련)
0
51
1
그래프 구현 조언 부탁드립니다!
0
77
2

