작성자 없음
작성자 정보가 삭제된 글입니다.
해결된 질문
작성
·
119
답변 2
1
안녕하세요! 좋은 질문 감사합니다.
저는 Q&A 쌍으로 이루어진 데이터보다는 주로 일반 문서를 다루다보니 현업에서는 경험이 없어 생각을 해봤는데요. 결론은 "케바케" 테스트 해보고 결정 하셔야 겠지만 각 항목별로 장단점을 설명드려보겠습니다. 인프런 AI 인턴의 답변과 비슷한 생각입니다.
첫 번째 방식 (질문+답변 통합 임베딩): 질문과 답변을 함께 임베딩하면 전체 컨텍스트를 하나의 벡터로 표현할 수 있습니다. 질문과 답변이 하나의 완성된 대화처럼 처리되는 것인데요. 이 방식의 장점은 질문과 답변 사이의 의미적 관계가 임베딩 공간에 함께 반영된다는 것입니다. 예를 들어 "환불은 어떻게 하나요?"라는 질문과 그에 대한 구체적인 환불 절차 답변이 하나의 벡터로 표현되므로, 유사한 환불 관련 질문이 들어왔을 때 더 정확한 매칭이 가능할 수 있습니다.
두 번째 방식 (질문만 임베딩): 질문만 임베딩하고 답변을 메타데이터로 저장하는 방식은 검색 공간을 더 명확하게 만듭니다. 도서관에서 책의 제목으로만 검색하는 것과 비슷한데요. 이 접근법의 장점은 질문의 의도와 맥락만을 집중적으로 벡터화할 수 있다는 점입니다. 예를 들어 다양한 방식으로 표현된 "배송 조회" 관련 질문들이 벡터 공간에서 더 뚜렷하게 군집화될 수 있습니다.
테스트를 해봐야겠지만, 위 내용을 기반으로 생각해보면, 두 번째 방식인 질문만 임베딩하고 답변은 메타데이터로 저장하는 것이 더 좋아보입니다. 임베딩되는 chunk에 질문 정보만 들어가다보니 검색의 정확도를 높이고 , 답변 생성시 더 유연한 컨텍스트 활용이 가능하며, 시스템 리소스도 효율적으로 사용할 수 있기 때문입니다. 예를들면 임베딩하는 텍스트의 양이 줄어드니 비용을 약간 저감할 수 있습니다.
그런데 아래 2가지 경우에는 질문과 답변을 같이 임베딩 하는 것이 좋을 수도 있습니다.
매우 전문적인 영역의 FAQ: 의학이나 법률 같은 전문 분야에서는 질문과 답변의 맥락이 긴밀하게 연결되어 있을 수 있습니다. 예를 들어 "간경화 증상이 있을 때 어떤 검사를 해야 하나요?"라는 질문은 그 답변의 의학적 맥락과 함께 임베딩되는 것이 도움될 수 있습니다.
짧고 명확한 QA: "영업시간이 어떻게 되나요?" - "평일 9시부터 6시까지입니다." 같은 단순하고 직접적인 QA의 경우, 통합 임베딩이 효과적일 수 있습니다.
구현해보시면서 테스트를 통해 최적의 결과를 찾아봐야 할 것 같습니다. 아무래도 같이 임베딩 하는 것이 더 간단할테니 같이 임베딩 하는 것을 먼저 시도해보시고, 원하는 퍼포먼스가 나오지 않는 경우에 질문만 임베딩 하는 방식을 시도해보시면 좋을 것 같습니다.
0
안녕하세요, 인프런 AI 인턴입니다. quan33님.
일반적으로 임베딩 전략을 선택할 때는 프로젝트의 목표에 따라 방법이 달라질 수 있지만, 두 가지 방법의 차이점을 이해하고 나서 선택하는 것이 중요합니다.
질문과 답변을 함께 임베딩하는 방법:
이 방법은 질문과 답변이 일종의 컨텍스트를 이루어, 임베딩 자체 내에서 두 요소 간의 관계를 학습할 수 있게 합니다. 따라서 검색 시 질문과 답변의 관계를 보다 잘 반영해주는 장점이 있습니다.
다만, 데이터의 변동성이 높거나 답변이 자주 변경되는 경우, 임베딩을 계속 업데이트해야 할 가능성이 있습니다.
질문만 임베딩하고 답변을 메타 데이터에 포함하는 방법:
질문만을 임베딩하여 보다 가벼운 임베딩 벡터를 얻을 수 있으며, 답변 부분은 메타 데이터로 관리하므로 업데이트가 쉬워집니다.
검색 결과에서 질문과 가장 관련성 높은 것을 찾아내는 역할을 임베딩이 담당하고, 유사한 질문에 대한 답변을 로직을 통해 메타 데이터에서 추출할 수 있게 됩니다.
가이드라인:
검색 정확도가 중요하다면: 질문과 답변을 함께 임베딩하는 것이 좋을 수 있습니다. 이는 임베딩이 보다 풍부한 컨텍스트를 포함할 수 있기 때문입니다.
유연성과 업데이트 용이성이 중요하다면: 질문만 임베딩하고 답변을 메타 데이터로 관리하는 것이 효율적일 수 있습니다.
관련 질문에 대한 유사한 사례나 질문을 참고하시면 도움이 될 수 있습니다:
- LLM 마다 QA 과정에서 큰 차이가 있을까요?: 임베딩 결과의 차이와 성능에 대한 논의가 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.