마크다운을 텍스트 파일로 변환하기

Question

안녕하세요. 아래 코드를 보면서 의문점이 생겼는데요. import markdown from bs4 import BeautifulSoup text_path = './documents/income_tax.txt' # 마크다운 파일을 읽어옵니다 with open(markdown_path, 'r', encoding='utf-8') as md_file: md_content = md_file.read() # 마크다운 콘텐츠를 HTML로 변환합니다 html_content = markdown.markdown(md_content) # HTML 콘텐츠를 파싱하여 텍스트만 추출합니다 soup = BeautifulSoup(html_content, 'html.parser') text_content = soup.get_text() # 추출한 텍스트를 텍스트 파일로 저장합니다 with open(text_path, 'w', encoding='utf-8') as txt_file: txt_file.write(text_content) print("Markdown converted to plain text successfully!") 표 등 마크다운 문법을 살린 텍스트를 넣기 위해서라면, 그냥 마크다운을 텍스트 파일로 변환(확장자를 그냥 .txt로 변환하거나)하는 방식을 하면 될 것 같은데요. 왜 HTML로 변환했다 텍스트를 추출하는 방식으로 진행되는건가요?

jasonkang · Answer

안녕하세요 좋은 질문 감사합니다. 토큰을 아끼려고 마크다운 형식들을 제외하고 txt로 저장하는 코드인데요, 말씀하신 것처럼 바로 txt로 변경하는게 오히려 더 좋겠다는 생각이 드네요. 토큰을 아끼는 것 보다 마크다운 형식을 남기고 형태를 보존하는 것이 LLM Context 주입에 더 유리할 것 같습니다. 좋은 피드백 감사합니다