2.2 PDF 전처리 강의에서 문의가 있습니다.
84
작성한 질문수 2
강의에서 구성한 그래프를 보면 retriever로 조회한 document들을 그대로 context로 넣는것으로 보이는데요.
여기에서 document의 page_content만 추출하는 과정은 필요 없나요?
lang smith를 보면 아래와 같이 프롬프트가 구성되어있는데 page_content만 넣도록 해야하는것이 아닌가 의문이 들었습니다.

답변 1
0
안녕하세요! 좋은 질문 감사합니다,
말씀하신 부분은 의사결정의 영역인 것 같아요. page_content만 활용한다면 사용되는 토큰수를 확실히 줄일 수 있다는 장점이 있습니다.
강의에서는 문서 1개만 활용하기 때문에 page_content만 넣어도 충분히 문서의 출처를 알 수 있지만, 만약 수백개 수천개의 문서를 사용해서 개발하는 서비스의 경우에는 metadata의 source에 들어있는 정보가 답변의 출처로 활용될 수도 있기 때문입니다.
깃허브 레포지토리 확인 요청
0
35
2
제공해주신 레포가 Windows 환경에 너무 비친화적입니다.
0
64
2
마크다운을 텍스트 파일로 변환하기
0
62
1
max token을 제한하는게 왜 성능을 개선하게 되는걸까요?
0
70
2
pyzerox 유니코드 에러
0
94
2
영상 메타데이터 생성 관련 LLM 활용 질문
0
89
1
종합부동산세 부분 tool 사용 질문 드립니다.
0
90
2
uv sync 파이썬 버전문제 onnxruntime
-1
135
2
MCP를 활용해서 간단한 에이전트를 만들어보세요
0
114
1
PDF 형식
0
79
1
5.3 langchain-mcp-adpater를 활용한 MCP 도구 사용 tool_list 지연 사유
0
104
2
3.6 human_in_the_loop 3rd case
0
92
1
summary 를. 시스템메세지에 추가하는 부분에 관하여
0
93
3
병렬 처리 중 retrieve 관련 궁금한 사항
0
85
1
query 에 대한 answer 결과값이 나오지 않습니다.
0
108
2
사람과 관련된 표현이 없는데 rewrite 로 이동하지 않는경우
0
84
1
retriever 관련 질문
0
68
1
인터룹 관련 질문
0
52
2
2.4 Self-RAG 결과가 달라요!
0
86
2
md vs txt 차이..
0
170
2
OpenAI API 호출 때문에 발생하는 Error code: 429 문제
0
130
2
단순 도구 사용과 도구를 가진 에이전트를 사용하는 것의 차이가 궁금합니다.
0
91
1
LangChain과 LangGraph v1
0
143
1
2.4 강의 관련 질문(답변을 검증하는 self rag)
0
80
2





