2.2 PDF 전처리 강의에서 PDF 변환처리 관련해서..

Question

안녕하세요.. 2.2 PDF 전처리 강의를 따라서 진행하고 있습니다. 동일한 openai 모델을 이용하고, pyzerox를 사용했는데, 강사님이 보여주시는 결과와는 다른 내용이 나와서, pyzerox 사용시 추가설정 부분이 빠졌는지 궁금하네요.. 제가 사용한 세법 pdf는 다음과 같이 표가 구성되어 있습니다. 이 테이블을 알려주신 pyzerox 패키지로 실행하고 나온 md 파일을 text로 변환했는데 다음과 같이 나옵니다. | 과세표준 | 세 율 | |------------------------------|------------------------------------------| | 1,400만원 이하 | 과세표준의 6번세트 | | 1,400만원 초과 | 84만 원 + (1,400만원을 초과하는 금액의 15번세트) | | 5,000만원 이하 | 624만 원 + (5,000만원을 초과하는 금액의 24번세트) | | 8,800만원 이하 | 1,536만원 + (8,800만원을 초과하는 금액의 35번세트) | | 8,800만원 초과 | 3,706만원 + (1,500만원을 초과하는 금액의 38번세트) | | 3,000만원 초과 | 9,406만원 + (3,000만원을 초과하는 금액의 40번세트) | | 5,000만원 초과 | 1,406만원 + (5,000만원을 초과하는 금액의 42번세트) | | 10,000만원 초과 | 3,406만원 + (10,000만원을 초과하는 금액의 45번세트) | 퍼센트가 번세트로 인식되어서 나오고, 각행도 두줄이 제대로 변환안되고 있는 상태이면서, 추출된 글도 틀립니다. 후반으로 갈 수록 테이블 값이 엄청나게 틀린데,. 이런 상태로는 원하는 RAG를 제대로 할 수 없을 것 같습니다. 이를 해결할 수 있는 방법을 자세히 알려주시면 좋겠습니다.

제이쓴 · Answer

안녕하세요! zerox의 이슈라기 보다는 모델에서 한국어를 제대로 인식하지 못하는 문제인데요, 생성형 AI의 특성상, 동일한 모델을 사용하더라도 멀티모달 인식률이나 인식 정확도가 매번 일정하지 않을 수 있기 때문입니다. 이러한 상황에서는 업로드하신 파일을 직접 활용하여 진행하시거나, 최신 버전의 OpenAI 모델(GPT-4.1)이나 Gemini 모델을 사용해보시는 것도 좋은 방법일 것 같습니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 산마로님께서 질문하신 PDF 변환 과정에서의 이슈에 대해 살펴보겠습니다. PDF 문서를 마크다운 형태로 변환하는 과정에서는 종종 변환 오류가 발생할 수 있습니다. 이는 주로 OCR(광학 문자 인식)의 한계 때문인데, 특히 테이블이나 퍼센트와 같은 특정 형식의 데이터는 잘못 인식될 가능성이 높습니다. 변환 오류 원인 및 해결책 OCR 및 텍스트 인식 한계 : PDF 파일에 내장된 글꼴이나 인코딩 방식 때문에 텍스트가 이미지로 처리되어 오류가 생길 수 있습니다. Tesseract와 같은 최신 OCR 엔진을 사용하여 PDF를 변환 시도해 보세요. 특히, 한글 인식을 최적화한 버전으로 테스트하시면 성능이 향상될 수 있습니다. pyzerox 사용시 추가 설정 확인 : pyzerox 설정에서 OCR 정확도를 높일 수 있는 추가 옵션이 있는지 확인하십시오. 특히, 언어 설정이나 텍스트 인식 제한을 없애는 방법 등 여러 최적화 기능이 있을 수 있습니다. 테이블 파싱 개선 : 테이블을 올바르게 파싱하도록 설정을 변경하거나, 테이블 형식 추출에 특화된 추가 라이브러리를 검토해 보세요. pandas와 같은 라이브러리를 통해 후처리 과정을 거치는 것도 방법입니다. 수동 검토 및 수정 : 최종 결과물을 수동으로 검토하고 수정하는 것도 하나의 방법입니다. 자동화에는 많은 이점이 있지만, 중요한 데이터의 경우 수작업 검토를 통해 정확도를 확인할 필요가 있습니다. 참고 게시물 pdf 를 md를 바꾸는 과정 질문있습니다. : 비슷한 변환 문제에 대해 다루고 있습니다. error in pdf markdown translation 이러한 해결책을 바탕으로 변환 과정의 정확도를 높여 보시기 바랍니다. 데이터가 올바르게 인식되지 않는 경우, 다른 OCR 솔루션을 시도하거나 필요한 수정을 검토해 보는 것이 좋습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.