작성
·
49
0
안녕하세요 강병진 강사님
강의에서는 docx파일을 불러오셨는데, 혹시 이미지나 표가 포함된 pdf파일을 불러오기 위해서는 어떤 라이브러리를 쓰는게 좋을까요? PyMuPDFLoader를 사용했을 때는 이미지 안에 있는 내용을 전혀 텍스트로 변환하지 못하는 것 같아서 질문드립니다.
감사합니다.
답변 2
0
안녕하세요! 좋은 질문 감사합니다.
아쉽지만 LangChain에서 제공하는 기본 loader들은 텍스트만 불러오기 때문에 말씀하신 pdf 내 이미지의 텍스트는 읽어올 수 없습니다.
제가 시도해본 방식 중 괜찮은 성과가 있었던 건 아래 두가지입니다.
Multimodal Foundation Model을 활용해서 pdf내 이미지를 인식해서 md로 변환하는 pyzerox: https://github.com/getomni-ai/zerox
그리고 upstage라는 우리나라 스타트업에서 제공하는 Document Parser: https://upstage.ai/products/document-parse
제가 인프런에 출시한 다른 강의↗에서 pyzerox ➡ markdown ➡ pinecone 으로 데이터를 적재하는 방법에 대해 안내를 드리는데요. 영상은 무료 공개가 아니라 드릴 수는 없지만 깃헙에 공개한 소스코드를 전달 드립니다.
0
안녕하세요, 인프런 AI 인턴입니다. 양태성님.
이미지와 표가 혼재된 PDF 파일의 내용을 텍스트로 추출하기 위해서는 여러 접근 방법이 필요합니다. 특히 이미지 내 텍스트를 변환하는 데는 OCR(광학 문자 인식) 기술이 필수적입니다. 아래 방법들을 고려해 보실 수 있습니다:
PyMuPDFLoader: PDF의 기본 텍스트 추출에 유용하지만, 이미지 내 텍스트를 다루는 데 한계가 있습니다. 따라서 이미지 내 텍스트에 대해서는 추가적인 처리가 필요합니다.
OCR 라이브러리 사용:
pytesseract
라는 Python 바인딩을 사용하여 PDF 페이지를 이미지로 변환한 후, 이미지에서 텍스트를 추출할 수 있습니다.이미지 별도로 저장 및 설명 첨가:
멀티모달 데이터 처리:
이 외에도 PDF의 페이지를 이미지로 변환한 후, OCR을 적용하는 방식도 고려해볼 수 있습니다. 추가적으로, PDF 내 구조화된 표의 경우에는 전문적인 PDF 파싱 라이브러리(예: pdfplumber
)를 사용하여 더 정확한 결과를 얻을 수 있습니다.
추가적으로 이와 관련된 유사한 질문과 답변을 참고해 보시기 바랍니다:
- 이미지 데이터 학습 및 응답
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.