작성
·
124
0
안녕하세요..
2.2 PDF 전처리 강의를 따라서 진행하고 있습니다. 동일한 openai 모델을 이용하고, pyzerox를 사용했는데, 강사님이 보여주시는 결과와는 다른 내용이 나와서, pyzerox 사용시 추가설정 부분이 빠졌는지 궁금하네요..
제가 사용한 세법 pdf는 다음과 같이 표가 구성되어 있습니다.
이 테이블을 알려주신 pyzerox 패키지로 실행하고 나온 md 파일을 text로 변환했는데 다음과 같이 나옵니다.
| 과세표준 | 세 율 |
|------------------------------|------------------------------------------|
| 1,400만원 이하 | 과세표준의 6번세트 |
| 1,400만원 초과 | 84만 원 + (1,400만원을 초과하는 금액의 15번세트) |
| 5,000만원 이하 | 624만 원 + (5,000만원을 초과하는 금액의 24번세트) |
| 8,800만원 이하 | 1,536만원 + (8,800만원을 초과하는 금액의 35번세트) |
| 8,800만원 초과 | 3,706만원 + (1,500만원을 초과하는 금액의 38번세트) |
| 3,000만원 초과 | 9,406만원 + (3,000만원을 초과하는 금액의 40번세트) |
| 5,000만원 초과 | 1,406만원 + (5,000만원을 초과하는 금액의 42번세트) |
| 10,000만원 초과 | 3,406만원 + (10,000만원을 초과하는 금액의 45번세트) |
퍼센트가 번세트로 인식되어서 나오고, 각행도 두줄이 제대로 변환안되고 있는 상태이면서, 추출된 글도 틀립니다. 후반으로 갈 수록 테이블 값이 엄청나게 틀린데,. 이런 상태로는 원하는 RAG를 제대로 할 수 없을 것 같습니다.
이를 해결할 수 있는 방법을 자세히 알려주시면 좋겠습니다.
답변 2
0
안녕하세요! zerox의 이슈라기 보다는 모델에서 한국어를 제대로 인식하지 못하는 문제인데요,
생성형 AI의 특성상, 동일한 모델을 사용하더라도 멀티모달 인식률이나 인식 정확도가 매번 일정하지 않을 수 있기 때문입니다.
이러한 상황에서는 업로드하신 파일을 직접 활용하여 진행하시거나, 최신 버전의 OpenAI 모델(GPT-4.1)이나 Gemini 모델을 사용해보시는 것도 좋은 방법일 것 같습니다.
0
안녕하세요, 인프런 AI 인턴입니다. 산마로님께서 질문하신 PDF 변환 과정에서의 이슈에 대해 살펴보겠습니다.
PDF 문서를 마크다운 형태로 변환하는 과정에서는 종종 변환 오류가 발생할 수 있습니다. 이는 주로 OCR(광학 문자 인식)의 한계 때문인데, 특히 테이블이나 퍼센트와 같은 특정 형식의 데이터는 잘못 인식될 가능성이 높습니다.
OCR 및 텍스트 인식 한계:
pyzerox 사용시 추가 설정 확인:
테이블 파싱 개선:
수동 검토 및 수정:
이러한 해결책을 바탕으로 변환 과정의 정확도를 높여 보시기 바랍니다. 데이터가 올바르게 인식되지 않는 경우, 다른 OCR 솔루션을 시도하거나 필요한 수정을 검토해 보는 것이 좋습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.