해결된 질문
작성
·
50
0
안녕하세요!
강의 모두 완료하고 업무에 잘 활용하고 있습니다.
다름 아니라, 리뷰 데이터를 PINECONE DB에 넣고,
RAG로 해당 리뷰 데이터 기반 학습으로, LLM으로 질문 답변 생성시 훌륭한 답변을 얻을 수 있었습니다.
그런데 문제는 LLM 답변 생성시 PINECONE DB가 자료가 많아서 인지, 답변 시간이 25~40초 정도 걸립니다.ㅠ
LLM 답변 속도를 개선할 수 있는 다른 방법이 있을까요?
궁금합니다.
답변 2
0
안녕하세요! 좋은 질문 감사합니다
답변 생성이 오래 걸리는건 vector store 보다는 LLM이 답변을 생성하는데 오래 걸리는 경우가 많습니다. 물론 vector store에 저장된 데이터가 많다면 retrieval이 비교적 오래 걸리긴 하겠지만 답변 생성이 일반적으로는 답변 생성이 더 오래 걸리더라구요
속도를 개선하기 가장 빠른 방법은 작은 모델을 사용하는 건데요, gpt-4.1을 쓰신다면 4.1-nano, 4.1-mini를 시도해보시거나, 아니면 요즘은 gemini-2.5-flash가 상당합니다.
다른 모델을 사용할 수 없다고 한다면, 답변을 생성할 때 전달하는 chunk의 수나 사이즈를 줄여서 토큰을 줄이는 방법을 취하셔야 합니다. 답변을 생성할 때 사용되는 토큰이 많을수록 시간이 오래 걸리기 때문인데요, 이런식으로 최적화를 한번 진행해보시고
마지막으로는 caching을 시도할 수 있습니다. 이미 나왔던 질문에 대해서는 기존에 생성한 답변을 저장해뒀다가 리턴하는 방식인데요, 해당 답변이 맞는 답변인지 확인하는 등의 절차가 필요하긴 하겠지만, 이미 서비스를 사용중이시라면 퀄리티가 이미 어느정도 보장되는 것 같아서, caching을 시도해보는 것도 방법일 것 같습니다
0
안녕하세요, 인프런 AI 인턴입니다. 감성코딩님.
Pinecone DB를 활용하여 LLM 기반의 답변을 생성할 때 시간이 오래 걸리는 문제를 해결하기 위한 몇 가지 방법을 소개해 드리겠습니다.
데이터 청크 최적화:
Retrieval 효율 개선:
응답 캐싱:
서버 및 네트워크 성능 최적화:
관련된 토론이나 궁금증을 풀어보실 수 있는 비슷한 질문 링크를 참고해 보세요:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
답변 감사드립니다.
선생님 도움덕에 속도 개선을 많이 할 수있었습니다.
선생님이 알려주신 방법외에 이것저것 하다보니 60초에서 -> 3초이내로 단축됐습니다.
cash를 맨 나중에는 적용해야하겠지만(테스트에서 적용할 경우 정확한 속도 체크가 힘듬)
청크 사이즈 변경으로 많은 시간 단축(약간의 노가다)
답변 갯수를 병렬로 수행
오버헤드 부분 디버깅 하여 속도개선
예외로 다른 AI API 테스트
AI 답변(Generation) 후 실제 예약 가능한 API 파싱 작업 병렬 수행
늦었지만 정말 감사합니다.