강병진 강사님 반갑습니다. RAG 추가 전략에 아이디어에 대해서 질문드립니다.
108
작성한 질문수 16
강병진 강사님 안녕하세요 우선 저와 같은시기쯤? 울산에 있으셨다고 하니 반갑습니다.
저는 병진강사님과 인연이 많은것 같습니다.
강사님 전 회사? 정유회사 바로 옆에 제련회사에서 딥러닝 이미지 처리 프로젝트를 개발하고 있었습니다.
병진강사님 덕분에 생성형 AI도 따로 학습을 하고 있고 개별적인 프로젝트도 하고 있습니다. 감사합니다.
질문.1
RAG를 구성하고 문서를 벡터DB에 지속하여 업데이트를 위해서 PDF 텍스트·이미지 분석 → RAG용 JSON/JSONL 생성 → Pinecone 적재가능하도록 PyQt GUI 프로그램 만들었는데 여기서 추가적으로 생성되는 문서를 지속적으로 업데이트를 해야할 경우 25년 10월 초에 새로나온 Open AI에 에이전트 툴을 이용해서 일정 시간에 자동으로 Pinecone에 업데으트 해주는 에이전트를 만들어서 자동화를 하려고 하는데 이런 전략을 구성할 경우 문제가 될 부분이 있을까요?
질문.2
모델을 만들고 회사가 가지고 있는 특허 문서 파일을 RAG로 구성을 완료한 후 외부 사이트 >> 각 국가의 특허청에 파일을 검색해서 유사도를 분석하거나 하려고 할 때 전략은 어떻게 가져가면 좋을지? 입니다.
답변 1
1
안녕하세요! 울산에 계시는군요 ㅎㅎ 오랜 기간 머무르진 않았지만 좋은 기억이 많은 곳입니다. 답변을 드려보자면
문서가 추가만 되고, 기존 문서룰 수정하거나 삭제할 필요가 없다면 구상하신대로 진행해도 괜찮습니다. 만약 기존 문서를 수정하거나 삭제해야한다면, 문서 정보를 Metadata로 저장하고, 해당 metadata를 기반으로 필터한 후 처리하는 절차가 추가되어야 할 것 같습니다
AI보다는 소프트웨어 측면에서 아키텍처 고민이 필요한 것 같은데요. 특허청에서 파일을 다운로드 받아서 검색할 때 파싱을 어떻게 할지가 관건일 것 같습니다. 여기서도 적절한 청킹이 그때마다 들어가야 유사도 검색을 통해서 의미있는 결과를 볼 수 있을 것 같은데, 테스트를 다양하게 해보면서 적절한 청크사이즈를 검증하는 것 외에 딱히 떠오르는 방법은 없네요 ㅠㅠ
추가로 궁금하신 내용이 있으시면 말씀 부탁 드립니다!
Langchain 공식문서 학습 질문
0
57
2
온톨로지 활용
0
67
2
ollama설치해서 llama로 돌려도 되나요?
0
71
2
소득세법 docx 파일 공유 요청건
0
115
1
EXAONE 모델 불러오기 안되는 문제
0
108
2
[5.1 강의] LLM Evaluator에 Upstage를 사용하는 방법 + 변경된 Langsmith Docs를 참고하여 구현하는 방법 공유
0
139
2
강의 9에 QA관련된 import가 되지 않네요
0
132
2
🚨 python3.14 를 쓰고 계시면 chroma 에서 ConfigError 가 발생합니다.
1
251
1
강의와 책 관련 질문
0
104
1
문서 전처리 고민
0
129
1
RAG 배포 질문드립니다
0
111
1
강의 내용과는 별개로 궁금한 점이 있습니다
0
106
2
폐쇄망 챗봇 모델
0
106
1
AI agent 쿠폰
0
103
2
저는 왜 그대로 했는데 답변이 틀리게 나오는지 모르겠네요
0
112
2
langchain howto/sequence는 지금 doc 공식 사이트 어디서 확인할 수 있나요?
1
107
1
new_question에 대한 답 출력
0
80
2
랭체인 라이브러리
0
172
2
[LangGraph를 활용한 AI Agent 개발] 쿠폰 유효기간
0
119
1
postgresql의 pgvector 벡터는 어떤가요?
0
409
2
doc관련
0
150
2
load_dotenv() 실행 False
0
104
1
RAG 답변 개선을 위한 정답지 활용 구조 검토 요청
0
128
2
3.2 from langchain.chains ~ 에서 모듈을 찾지 못할 때.
2
440
2





