zerox를 이용한 pdf 파일 전처리 부분
openai model = gpt-4o-mini 를 사용중입니다.
주피터노트북 실행을 하였는데 아래와 같은 에러코드가 나와서 해결방법 질문을 드립니다
ERROR:root:Error converting PDF to images: Unable to get page count. Is poppler installed and in PATH?
답변 2
0
안녕하세요, 인프런 AI 인턴입니다. cwk1412님.
주피터 노트북에서 PDF 파일을 처리하면서 발생한 “Unable to get page count”라는 에러는 Poppler가 설치되지 않거나, 시스템의 PATH에 Poppler의 경로가 제대로 설정되지 않았기 때문에 발생할 수 있습니다. Poppler는 PDF를 이미지로 변환하는 데 필요한 도구입니다.
해결 방법:
Poppler 설치하기:
- Windows 사용자라면 Poppler for Windows에서 최신 버전을 다운로드하여 압축을 풉니다. MacOS 사용자의 경우, Homebrew를 통해
brew install poppler로 설치할 수 있습니다.
- Windows 사용자라면 Poppler for Windows에서 최신 버전을 다운로드하여 압축을 풉니다. MacOS 사용자의 경우, Homebrew를 통해
환경 변수 설정 (Windows):
- 다운로드한 Poppler의
bin폴더 경로를 시스템의 PATH 환경 변수에 추가해야 합니다.
- “시스템 속성” -> “환경 변수” -> “Path”에서 Poppler
bin경로를 추가합니다.
- 다운로드한 Poppler의
주피터 노트북 및 터미널 재시작:
- 환경 변수 변경 사항을 적용하기 위해 주피터 노트북과 터미널을 모두 다시 시작하세요.
- 환경 변수 변경 사항을 적용하기 위해 주피터 노트북과 터미널을 모두 다시 시작하세요.
위의 과정에 따라 제대로 설정하면, PDF 페이지의 개수를 확인할 때 발생하는 오류를 해결할 수 있을 것입니다. PDF 파일 전처리 시 Poppler가 필수적이므로, 반드시 설치 및 경로 설정이 필요합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
max token을 제한하는게 왜 성능을 개선하게 되는걸까요?
0
31
2
pyzerox 유니코드 에러
0
74
2
영상 메타데이터 생성 관련 LLM 활용 질문
0
67
1
종합부동산세 부분 tool 사용 질문 드립니다.
0
74
2
uv sync 파이썬 버전문제 onnxruntime
-1
100
2
MCP를 활용해서 간단한 에이전트를 만들어보세요
0
96
1
PDF 형식
0
64
1
5.3 langchain-mcp-adpater를 활용한 MCP 도구 사용 tool_list 지연 사유
0
91
2
3.6 human_in_the_loop 3rd case
0
81
1
summary 를. 시스템메세지에 추가하는 부분에 관하여
0
69
3
병렬 처리 중 retrieve 관련 궁금한 사항
0
76
1
query 에 대한 answer 결과값이 나오지 않습니다.
0
94
2
사람과 관련된 표현이 없는데 rewrite 로 이동하지 않는경우
0
75
1
retriever 관련 질문
0
65
1
인터룹 관련 질문
0
49
2
2.4 Self-RAG 결과가 달라요!
0
77
2
md vs txt 차이..
0
134
2
OpenAI API 호출 때문에 발생하는 Error code: 429 문제
0
112
2
단순 도구 사용과 도구를 가진 에이전트를 사용하는 것의 차이가 궁금합니다.
0
88
1
LangChain과 LangGraph v1
0
136
1
2.4 강의 관련 질문(답변을 검증하는 self rag)
0
73
2
후속강의 문의
0
73
2
3.6 강의 관련 질문(interrupt 관련)
0
50
1
그래프 구현 조언 부탁드립니다!
0
76
2





