[문의] query에 대한 응답을 못찾을때 해결하는 방안

Question

강의에서 "연봉 5천만원 직장인의 소득세는?" 이라는 (직장인이라는)단어를 문서에서 찾지 못해서 응답을 받지 못했다고 하는데 보통 사용자가 질문할때는 정확한 단어를 입력할 확률이 적을것으로 생각되서 이 경우 쿼리에 대해 llm 이나 다른 방법을 통해 알아서 잘(?) 질문에 대해서 llm이 해석 할 수 있도록 해줄 필요가 있을 것 같다고 생각이 드는데, 혹시 이런 경우에 있어서 해결방안이나 팁이 있으신가요?

제이쓴 · Answer

안녕하세요! 좋은 질문 감사합니다. 그리고 굉장히 좋은 접근 방법입니다. 우리의 문서에 있는 단어와 사용자들이 자주 쓰는 단어가 다르다면, 사전을 만들어서 해당 단어를 치환해 주는 방식이 가장 편리합니다. 말씀하신 직장인 -> 거주자, 사람 -> 거주자, 누군가 -> 거주자 이런 식으로 치환을 해도 되고 (LLM을 호출하지 않고 regex기반으로 처리한다면 토큰비용이 저감되고 속도가 훨씬 빠르겠죠) 아니면 node를 하나 추가해서, "사람을 뜻하는 단어를 모두 거주자로 바꿔달라"라는 작업을 해도 됩니다. 이것 역시 간단한 작업이라고 판단되면 작은 모델을 사용해서 저렴한 비용과 빠른 연산으로 해당 작업을 처리할 수도 있습니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 임승혁님. 질문 주신 내용을 통해 LLM이 특정 쿼리에 대한 응답을 찾지 못하는 상황에서의 해결책에 대해 고민하신 것으로 보입니다. 이는 사용자의 표현이 다소 다를 수 있음에도 불구하고 적절한 답변을 제공하기 위한 방안을 찾기 위한 좋은 질문입니다. 주요 해결 방안을 아래와 같이 제시드리겠습니다. 1. 질의어 전처리 및 매칭 개선 유사 어휘 대체 : Synonym을 사용하여 주요 쿼리에 대한 여러 형태를 사전에 구축하고, 이를 통해 다중 단어 매칭을 실행할 수 있습니다. 예를 들어 &lsquo;직장인&rsquo;은 &lsquo;직원&rsquo;, &lsquo;근로자&rsquo; 등으로 대체될 수 있습니다. 정규 표현식 사용 : 질의어의 특정 패턴을 정규 표현식으로 정의하여 다양한 사용자 입력을 유연하게 처리할 수 있습니다. 2. 데이터베이스 정제 및 확장 추가적인 데이터 제공 : 다양한 표현을 포함하여 LLM이 참조할 문서에 명시적으로 다양한 표현을 추가하는 것도 유효합니다. 이를 통해 연관 검색 시 더욱 풍부한 데이터를 제공할 수 있습니다. 3. NLP Techniques 활용 자연어 처리 기반 Preprocessing : Morphological Analysis, stemming, lemmatization, part-of-speech tagging 등 다양한 NLP 기법을 활용하여 유사 검색을 강화할 수 있습니다. Embedding 기술 활용 : Sentence transformer와 같은 임베딩 모델을 사용하여 의미 유사 질의를 높은 유사도로 매칭합니다. Pinecone, Chroma와 같은 벡터 데이터베이스를 적용하여 검색 효율을 높일 수 있습니다. 참고할 만한 기존 답변 DB별로 LLM 답변이 다른 이유가 궁금합니다. : 벡터 데이터베이스를 활용한 다양한 검색 매칭 방법에 관한 유사한 질문입니다. 이러한 방법들을 통해, 다양한 사용자 쿼리에 대응할 수 있는 더욱 강력한 질의응답 시스템을 구축할 수 있습니다. 추가적으로 궁금하신 점이 있다면 이어서 질문 부탁드립니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.