2.2 PDF 전처리 > PDF Loader
저도 비슷한 고민을 하다가 이것저것 실험해봤는데, 질문하신 두 방식은 결과물의 성격이 꽤 다르다고 느꼈습니다. zeorx로 PDF를 Markdown으로 바꾼 뒤 UnstructuredMarkdownLoader로 쪼개면 문단 구조나 헤더 흐름을 사람이 읽는 맥락에 맞게 정리하기 쉬워서, LLM에 넣을 때 의도치 않은 분절이 줄었습니다. 반면 UnstructuredPDFLoader는 한 번에 load_and_split이 가능해서 파이프라인은 단순하지만, 레이아웃·표·이미지에 민감하고 pdf2image나 OCR 의존성이 생기면서 환경 세팅 부담이 커지더군요. 저는 사전에 PDF를 정리할 때 https://pdfguru.com/ko/pdf-converter 같은 온라인 도구로 스캔본을 텍스트화하거나 불필요한 페이지를 정리한 뒤 진행했는데, 그 다음 Markdown 기반 분할이 안정적이었습니다. 결국 빠른 프로토타입이면 PDFLoader, 검색 품질을 중시하면 Markdown 경유가 낫다는 쪽으로 정리했습니다.