Inflearn brand logo image

인프런 커뮤니티 질문&답변

rhsnqk님의 프로필 이미지
rhsnqk

작성한 질문수

LangGraph를 활용한 AI Agent 개발 (feat. MCP)

2.2 간단한 Retrieval 에이전트 (feat. PDF 전처리 꿀팁)

pdf -> md 변환 이후 결과

해결된 질문

작성

·

113

0

안녕하십니까!!

기존 Pdf파일에서 제55조(세율) 표를 보면

 

image.png

이러합니다.
이후 pdf -> .md로 변환하면 ( 강사님께서 올려주신 .md 된 파일도 확인하였습니다.)

 

image.png

1,400만원 초과 5,000만원 이하
5,000만원 초과 8,800만원 이하
의 결과가 아닌 5,000만원이 생략이 되어있습니다.

특이한점으론 a초과 b이하
에서 a만 생략된다던지 혹은 b만 생략되는 것이 아닌
a, b 중 아무거나 생략이 되고 있습니다.

md 으로 변환하면서 이렇게 몇몇 글들이 생략이되게 되면 이후 정확도에 문제가 생기지 않는지?
추가적으로 py-zerox, gpt-4o-mini 를 사용하면서 생기는 문제인지, 아니면 일반적으로 한글 pdf -> md로 변환하는 과정에 대부분 이러한 문제가 생기는지 궁금합니다.

답변 2

0

강병진님의 프로필 이미지
강병진
지식공유자

좋은 질문 감사합니다.

일반적으로 상용화 LLM들이 한국어 인식 능력이 부족한 경향이 있습니다. 아마 문서도 전체를 보시면 오탈자나 빠진 문구들이 조금 있을거에요. 말씀하신 것처럼 오탈자들도 랜덤한 분포로 발생할겁니다.

지금 상황에서 할 수 있는 건 조금 더 좋은(비싼) 모델을 사용하는 것인데요, 완전한 데이터 전처리 방식은 아니지만, 모델의 성능이 좋아지면 자연스럽게 전처리 성능도 향상될거라서 별도의 파이프라인을 구성하거나, 수동으로 작업하지 않는다면 현재로써는 가장 괜찮은 방법인 것 같습니다.

업무에서 다양한 방식을 시도중이라 저도 더 괜찮은 방법을 발견하면 추가로 공유드리겠습니다!

rhsnqk님의 프로필 이미지
rhsnqk
질문자

답변 감사드립니다.!!

0

안녕하세요, 인프런 AI 인턴입니다. rhsnqk님께서 질문하신 내용에 대해 살펴보겠습니다.

질문 핵심 요약

PDF에서 마크다운 파일로 변환하는 과정에서 특정 숫자가 생략되는 문제가 발생하고 있습니다. 특히 소득세율 관련 표에서 일부 데이터가 생략되며, 이로 인해 변환 결과의 정확도가 우려된다는 점입니다.

원인 및 해결 방안

  1. OCR 및 PDF 변환 한계:

    • PDF 파일을 마크다운 형식으로 변환하는 과정에서는 Optical Character Recognition (OCR)을 이용하는 경우가 많습니다. OCR은 특히 표, 숫자, 한글 등에서 오인식할 가능성이 존재하며, 잘못된 인식으로 인해 특정 값이 생략될 수 있습니다.
    • 이를 해결하기 위해서는 인식률이 높은 OCR 엔진을 선택하거나, 사후 검토 과정을 통해 수작업으로 교정하는 것이 필요합니다.
  2. py-zerox와 gpt-4o-mini 사용:

    • py-zeroxgpt-4o-mini와 같은 도구들은 LLM의 기본 성능에 따라 결과가 달라질 수 있습니다. 특정 도구나 모델을 사용할 때는 각 모델의 특성과 잘못된 변환 가능성을 염두에 둬야 합니다.
    • py-zerox에서 제공하는 도구를 대신해 좀 더 한글 PDF 변환에 특화된 도구, 예를 들어 Tesseract의 한국어 지원 등을 시도해 볼 수 있습니다.
  3. 일반적인 PDF -> MD 변환 과정의 문제:

    • PDF 파일은 포맷에 따라 변환 시 불완전한 결과가 나올 수 있습니다. 특히 글자가 이미지로 취급되거나 파일이 올바르게 인코딩되지 않은 경우에 이러한 문제가 발생합니다.
    • 한글 PDF의 경우, PDF의 내장된 글꼴이나 인코딩이 OCR의 인식에 영향을 줄 수 있으므로 다양한 설정이나 OCR 옵션을 시험해보는 것이 좋습니다.
  4. 공식 문서 및 데이터 점검:

    • 데이터의 신뢰성을 위해 최종 결과는 공식 문서나 데이터와 교차 검증을 해 명확성을 확보하는 것이 좋습니다.

이러한 분석을 바탕으로, 동일한 문제를 피하기 위해 개선된 OCR 솔루션을 사용하거나, 후속 단계에서 수작업 검토를 고려해 볼 수 있습니다.

유사한 게시물 참조

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

rhsnqk님의 프로필 이미지
rhsnqk

작성한 질문수

질문하기