강병진 강사님 반갑습니다. RAG 추가 전략에 아이디어에 대해서 질문드립니다.

Question

강병진 강사님 안녕하세요 우선 저와 같은시기쯤? 울산에 있으셨다고 하니 반갑습니다. 저는 병진강사님과 인연이 많은것 같습니다. 강사님 전 회사? 정유회사 바로 옆에 제련회사에서 딥러닝 이미지 처리 프로젝트를 개발하고 있었습니다. 병진강사님 덕분에 생성형 AI도 따로 학습을 하고 있고 개별적인 프로젝트도 하고 있습니다. 감사합니다. 질문.1 RAG를 구성하고 문서를 벡터DB에 지속하여 업데이트를 위해서 PDF 텍스트·이미지 분석 → RAG용 JSON/JSONL 생성 → Pinecone 적재가능하도록 PyQt GUI 프로그램 만들었는데 여기서 추가적으로 생성되는 문서를 지속적으로 업데이트를 해야할 경우 25년 10월 초에 새로나온 Open AI에 에이전트 툴을 이용해서 일정 시간에 자동으로 Pinecone에 업데으트 해주는 에이전트를 만들어서 자동화를 하려고 하는데 이런 전략을 구성할 경우 문제가 될 부분이 있을까요? 질문.2 모델을 만들고 회사가 가지고 있는 특허 문서 파일을 RAG로 구성을 완료한 후 외부 사이트 >> 각 국가의 특허청에 파일을 검색해서 유사도를 분석하거나 하려고 할 때 전략은 어떻게 가져가면 좋을지? 입니다.

제이쓴 · Answer

안녕하세요! 울산에 계시는군요 ㅎㅎ 오랜 기간 머무르진 않았지만 좋은 기억이 많은 곳입니다. 답변을 드려보자면 문서가 추가만 되고, 기존 문서룰 수정하거나 삭제할 필요가 없다면 구상하신대로 진행해도 괜찮습니다. 만약 기존 문서를 수정하거나 삭제해야한다면, 문서 정보를 Metadata로 저장하고, 해당 metadata를 기반으로 필터한 후 처리하는 절차가 추가되어야 할 것 같습니다 AI보다는 소프트웨어 측면에서 아키텍처 고민이 필요한 것 같은데요. 특허청에서 파일을 다운로드 받아서 검색할 때 파싱을 어떻게 할지가 관건일 것 같습니다. 여기서도 적절한 청킹이 그때마다 들어가야 유사도 검색을 통해서 의미있는 결과를 볼 수 있을 것 같은데, 테스트를 다양하게 해보면서 적절한 청크사이즈를 검증하는 것 외에 딱히 떠오르는 방법은 없네요 ㅠㅠ 추가로 궁금하신 내용이 있으시면 말씀 부탁 드립니다!