scan된 pdf가 1대1분할 형식+메타데이터도 섞여있는데 전처리를 어떻게 해야할까요?
175
작성한 질문수 6
스캔된 pdf가 1대1분할형식과 메타데이터가 섞여있습니다. pdf 한 페이지에 이러한 형태로 데이터가 저장되어있으면 어떻게 전처리를 해야될지 도움주시면 감사하겠습니다
답변 2
0
정확히 이해가 안되는데 pdf한페이지 안에 데이터와 메타데이터가 같이 있다는건가요?
0
다른 질문에 올려주신것과 마찬가지입니다. 비용을 지불하고 ocr을 시도할 수 있으면 upstage의 document parser를 활용해보거나 vision model을 사용하시는 편이 좋습니다
0
안녕하세요, 인프런 AI 인턴입니다.
matthew님께서 질문 주신 스캔된 PDF의 전처리 문제는 컴퓨터 비전과 자연어 처리 분야 모두와 관련이 있으며, 주어진 형식에 따라 적절한 도구와 기법을 사용하는 것이 중요합니다. 이러한 경우, 전처리 과정은 크게 두 가지 주요 단계로 나누어 생각할 수 있습니다: 이미지 전처리와 텍스트 전처리입니다.
이미지 전처리:
- 스캔된 PDF는 보통 이미지 형식이기 때문에, OCR(Optical Character Recognition) 기술을 사용하여 이미지에서 텍스트를 추출하는 것이 첫 번째 단계가 될 것입니다. 이를 위해 Tesseract와 같은 오픈소스 OCR 플랫폼을 사용할 수 있습니다.
- PDF 페이지가 1대1 분할 형식으로 구성되어 있다면, Python의 PyPDF2 등의 라이브러리를 활용하여 각 페이지를 개별적으로 처리할 수 있습니다.
- 스캔된 PDF는 보통 이미지 형식이기 때문에, OCR(Optical Character Recognition) 기술을 사용하여 이미지에서 텍스트를 추출하는 것이 첫 번째 단계가 될 것입니다. 이를 위해 Tesseract와 같은 오픈소스 OCR 플랫폼을 사용할 수 있습니다.
텍스트 전처리:
- OCR을 통해 추출한 텍스트는 다양한 전처리 작업이 필요할 수 있습니다. 스캔된 문서에서 잘못 인식된 문자는 필요에 따라 교정해야 할 수 있습니다.
- 메타데이터가 섞여 있는 경우, 정규 표현식(Regular Expressions)을 사용하여 불필요한 메타데이터 부분을 필터링하거나 추출할 수 있습니다.
- 전처리된 텍스트가 잘못된 구문이나 두 개의 다른 데이터 형식을 포함하는 경우, 문장 분할 또는 텍스트 정리 작업도 필수적입니다.
- OCR을 통해 추출한 텍스트는 다양한 전처리 작업이 필요할 수 있습니다. 스캔된 문서에서 잘못 인식된 문자는 필요에 따라 교정해야 할 수 있습니다.
관련된 전처리 방법에 대한 구체적인 예제나 도움을 드리기 위해 아래의 링크에서 추가적인 힌트를 얻으실 수 있습니다:
- “PDF 전처리에 Tesseract OCR 활용하기”: Tesseract를 이용한 기본적인 OCR 기능 설명과 사용법을 소개합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
소득세법 docx 파일 공유 요청건
0
65
1
EXAONE 모델 불러오기 안되는 문제
0
89
2
[5.1 강의] LLM Evaluator에 Upstage를 사용하는 방법 + 변경된 Langsmith Docs를 참고하여 구현하는 방법 공유
0
104
2
강의 9에 QA관련된 import가 되지 않네요
0
111
2
🚨 python3.14 를 쓰고 계시면 chroma 에서 ConfigError 가 발생합니다.
1
200
1
강의와 책 관련 질문
0
87
1
문서 전처리 고민
0
111
1
RAG 배포 질문드립니다
0
95
1
강의 내용과는 별개로 궁금한 점이 있습니다
0
89
2
폐쇄망 챗봇 모델
0
94
1
AI agent 쿠폰
0
95
2
저는 왜 그대로 했는데 답변이 틀리게 나오는지 모르겠네요
0
102
2
langchain howto/sequence는 지금 doc 공식 사이트 어디서 확인할 수 있나요?
1
95
1
new_question에 대한 답 출력
0
74
2
랭체인 라이브러리
0
148
2
[LangGraph를 활용한 AI Agent 개발] 쿠폰 유효기간
0
106
1
postgresql의 pgvector 벡터는 어떤가요?
0
345
2
doc관련
0
128
2
load_dotenv() 실행 False
0
96
1
RAG 답변 개선을 위한 정답지 활용 구조 검토 요청
0
119
2
3.2 from langchain.chains ~ 에서 모듈을 찾지 못할 때.
1
406
2
강의 완료 오류
0
89
1
hub.pull 이슈
0
131
2
[3.3 강의] Upstage를 사용한 RAG 구현 성공기 공유
1
150
1





