강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

fwm8님의 프로필 이미지
fwm8

작성한 질문수

LangGraph를 활용한 AI Agent 개발 (feat. MCP)

2.7 병렬 처리를 통한 효율 개선 (feat. 프롬프트 엔지니어링)

PDF 형식

작성

·

11

0

안녕하세요 본 강의를 통해 다른 PDF로도 해보고 있는데 혹시 이미지 형식으로 되어있는 PDF의 경우 이상하게 파일을 읽는 거 같은데 이런 경우 어떤 방법으로 파일을 읽는 것이 좋을까요?

답변 1

0

제이쓴님의 프로필 이미지
제이쓴
지식공유자

안녕하세요! 좋은 질문 감사합니다.

파일 안에 사진이 있는 경우에는, 경험상 비용이 발생하긴 하지만 Upstage의 Document API를 활용하는게 가장 좋은 선택입니다. 다른 대안이 있을 수도 있는데 저는 다른 방법은 시도해보지 않았습니다.

다만 Upstage의 Document API도 사진을 분석해주지는 않고, 아래 방식으로 진행하셔야 합니다.

  1. pdf 파일을 분석해서 사진의 위치를 알려주는데요(좌표 포함),

  2. 해당 영역을 코드로 잘라서 별도로 사진 파일로 저장한 다음에

  3. 사진 인식이 가능한 AI를 활용해서 사진의 설명을 생성하고

  4. 사진의 설명을 임베딩하는 방식입니다

제가 시도해봤던 방법들 중에서는 가장 효과가 좋았습니다.

fwm8님의 프로필 이미지
fwm8

작성한 질문수

질문하기