zerox를 이용한 pdf 파일 전처리 부분

Question

openai model = gpt-4o-mini 를 사용중입니다. 주피터노트북 실행을 하였는데 아래와 같은 에러코드가 나와서 해결방법 질문을 드립니다 ERROR:root:Error converting PDF to images: Unable to get page count. Is poppler installed and in PATH?

제이쓴 · Answer

안녕하세요~ 혹시 윈도우이실까요? 다른분이 공유해주신 해결책을 참고해주세요! https://inf.run/auTWL

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. cwk1412님. 주피터 노트북에서 PDF 파일을 처리하면서 발생한 &ldquo;Unable to get page count&rdquo;라는 에러는 Poppler가 설치되지 않거나, 시스템의 PATH에 Poppler의 경로가 제대로 설정되지 않았기 때문에 발생할 수 있습니다. Poppler는 PDF를 이미지로 변환하는 데 필요한 도구입니다. 해결 방법: Poppler 설치하기 : Windows 사용자라면 Poppler for Windows 에서 최신 버전을 다운로드하여 압축을 풉니다. MacOS 사용자의 경우, Homebrew를 통해 brew install poppler 로 설치할 수 있습니다. 환경 변수 설정 (Windows): 다운로드한 Poppler의 bin 폴더 경로를 시스템의 PATH 환경 변수에 추가해야 합니다. &ldquo;시스템 속성&rdquo; -> &ldquo;환경 변수&rdquo; -> &ldquo;Path&rdquo;에서 Poppler bin 경로를 추가합니다. 주피터 노트북 및 터미널 재시작 : 환경 변수 변경 사항을 적용하기 위해 주피터 노트북과 터미널을 모두 다시 시작하세요. 위의 과정에 따라 제대로 설정하면, PDF 페이지의 개수를 확인할 때 발생하는 오류를 해결할 수 있을 것입니다. PDF 파일 전처리 시 Poppler가 필수적이므로, 반드시 설치 및 경로 설정이 필요합니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.