해결된 질문
작성
·
113
0
안녕하십니까!!
기존 Pdf파일에서 제55조(세율) 표를 보면
이러합니다.
이후 pdf -> .md로 변환하면 ( 강사님께서 올려주신 .md 된 파일도 확인하였습니다.)
1,400만원 초과 5,000만원 이하
5,000만원 초과 8,800만원 이하
의 결과가 아닌 5,000만원이 생략이 되어있습니다.
특이한점으론 a초과 b이하
에서 a만 생략된다던지 혹은 b만 생략되는 것이 아닌
a, b 중 아무거나 생략이 되고 있습니다.
md 으로 변환하면서 이렇게 몇몇 글들이 생략이되게 되면 이후 정확도에 문제가 생기지 않는지?
추가적으로 py-zerox, gpt-4o-mini 를 사용하면서 생기는 문제인지, 아니면 일반적으로 한글 pdf -> md로 변환하는 과정에 대부분 이러한 문제가 생기는지 궁금합니다.
답변 2
0
좋은 질문 감사합니다.
일반적으로 상용화 LLM들이 한국어 인식 능력이 부족한 경향이 있습니다. 아마 문서도 전체를 보시면 오탈자나 빠진 문구들이 조금 있을거에요. 말씀하신 것처럼 오탈자들도 랜덤한 분포로 발생할겁니다.
지금 상황에서 할 수 있는 건 조금 더 좋은(비싼) 모델을 사용하는 것인데요, 완전한 데이터 전처리 방식은 아니지만, 모델의 성능이 좋아지면 자연스럽게 전처리 성능도 향상될거라서 별도의 파이프라인을 구성하거나, 수동으로 작업하지 않는다면 현재로써는 가장 괜찮은 방법인 것 같습니다.
업무에서 다양한 방식을 시도중이라 저도 더 괜찮은 방법을 발견하면 추가로 공유드리겠습니다!
0
안녕하세요, 인프런 AI 인턴입니다. rhsnqk님께서 질문하신 내용에 대해 살펴보겠습니다.
PDF에서 마크다운 파일로 변환하는 과정에서 특정 숫자가 생략되는 문제가 발생하고 있습니다. 특히 소득세율 관련 표에서 일부 데이터가 생략되며, 이로 인해 변환 결과의 정확도가 우려된다는 점입니다.
OCR 및 PDF 변환 한계:
py-zerox와 gpt-4o-mini 사용:
py-zerox
와 gpt-4o-mini
와 같은 도구들은 LLM의 기본 성능에 따라 결과가 달라질 수 있습니다. 특정 도구나 모델을 사용할 때는 각 모델의 특성과 잘못된 변환 가능성을 염두에 둬야 합니다.일반적인 PDF -> MD 변환 과정의 문제:
공식 문서 및 데이터 점검:
이러한 분석을 바탕으로, 동일한 문제를 피하기 위해 개선된 OCR 솔루션을 사용하거나, 후속 단계에서 수작업 검토를 고려해 볼 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
답변 감사드립니다.!!