pdf loader
145
작성한 질문수 6
안녕하세요 이번에 인프런 강의를 들으면서 프로젝트로 학과 정보를 소개하는 챗봇을 개발하려고 합니다. 그런데 pdf 안에 내용이 스캔되어 있어서 loader가 읽어오지 못하는데 이러한 경우에는 어떻게 해결할 수 있을지 도움주시면 감사하겠습니다.
답변 2
0
안녕하세요 스캔본이라면 vision model을 활용하시는 편이 제일 좋습니다. 요즘은 vision model사용 비용이 많이 떨어지기도 해서, pdf -> png로 변환한 후에 api를 활용해서 vision model을 활용해서 텍스트를 인식하는 방식을 추천합니다. 해보고 잘 안되시면 다시 이야기 해보시죠~
0
안녕하세요, 인프런 AI 인턴입니다. 권주현님.
PDF 문서에서 스캔된 이미지 형태의 텍스트를 읽어올 때 발생하는 문제를 해결하기 위해서는 OCR(광학 문자 인식) 기술을 활용해야 합니다. 이는 이미지에서 텍스트를 추출하는 기술로, 여러 Python 라이브러리를 사용하여 구현할 수 있습니다.
가장 많이 사용되는 라이브러리 중 하나는 Tesseract OCR입니다. 설치 후, Python 패키지인 pytesseract를 이용하여 PDF 이미지에서 텍스트를 추출할 수 있습니다. 다음은 기본적인 사용 예시입니다.
Tesseract 설치: 시스템에 Tesseract를 설치해야 합니다. 공식 Tesseract 설치 가이드 를 참조하세요.
pytesseract 이용:
”`python
from PIL import Image
import pytesseract
from pdf2image import convert_from_path
# PDF를 이미지로 변환
images = convert_from_path(‘your_pdf_file.pdf’)
# 각 이미지에서 텍스트 추출
for image in images:
text = pytesseract.image_to_string(image, lang=‘eng’)
print(text)
“
여기서lang=‘eng’부분은 영어로 설정되어 있지만, 한글이 포함되어 있다면lang=‘kor’`로 설정하시면 됩니다. 한글 OCR을 위해서는 별도의 언어 파일을 설치해야 합니다.
- 추가 라이브러리 고려:
pdfminer와 같은 pdf 텍스트 추출 라이브러리를 사용하여 PDF에서 가능한 텍스트 부분을 추출한 뒤 나머지 이미지를 OCR로 처리하는 방법도 있습니다.
이는 스캔된 PDF에서 정보를 추출하는 데 도움이 될 것입니다. 자유롭게 추가 질문해주세요. 지식공유자께서 곧 답변해주실 것입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
Langchain 공식문서 학습 질문
0
41
2
온톨로지 활용
0
60
2
ollama설치해서 llama로 돌려도 되나요?
0
65
2
소득세법 docx 파일 공유 요청건
0
110
1
EXAONE 모델 불러오기 안되는 문제
0
101
2
[5.1 강의] LLM Evaluator에 Upstage를 사용하는 방법 + 변경된 Langsmith Docs를 참고하여 구현하는 방법 공유
0
135
2
강의 9에 QA관련된 import가 되지 않네요
0
129
2
🚨 python3.14 를 쓰고 계시면 chroma 에서 ConfigError 가 발생합니다.
1
244
1
강의와 책 관련 질문
0
102
1
문서 전처리 고민
0
127
1
RAG 배포 질문드립니다
0
110
1
강의 내용과는 별개로 궁금한 점이 있습니다
0
102
2
폐쇄망 챗봇 모델
0
105
1
AI agent 쿠폰
0
102
2
저는 왜 그대로 했는데 답변이 틀리게 나오는지 모르겠네요
0
109
2
langchain howto/sequence는 지금 doc 공식 사이트 어디서 확인할 수 있나요?
1
104
1
new_question에 대한 답 출력
0
80
2
랭체인 라이브러리
0
168
2
[LangGraph를 활용한 AI Agent 개발] 쿠폰 유효기간
0
115
1
postgresql의 pgvector 벡터는 어떤가요?
0
398
2
doc관련
0
149
2
load_dotenv() 실행 False
0
103
1
RAG 답변 개선을 위한 정답지 활용 구조 검토 요청
0
126
2
3.2 from langchain.chains ~ 에서 모듈을 찾지 못할 때.
2
435
2





