질문에 의해 결정된 {context} 값의 토큰량을 확인하는 방법이 있을까요?

Question

궁금한 점이 있어서 질문드립니다. 강의 소스에서, 다음 코드를 보면, retrieval_chain 변수에 {context} 결정 값이 있을 것으로 예상하고 있는데요. retrieval_chain = create_retrieval_chain(retriever, document_chain) response = retrieval_chain.invoke({"input" : "질문" }) retrieval_chain.invoke() 하기 전에, {context} 값을 확인하는 방법이 있을지요? llm 모델을 바꿔가며 실험해보니, retrieval_chain.invoke() 후 response['context'] 내용이 llm 모델마다 많이 달라지는 것을 관찰했어요. gpt-3.5-turbo-16k-0613, gpt-3.5-turbo-0125, gpt-4, gpt-4-turbo 모델에서 실험해봤습니다. 그렇다면, llm 모델에 따라 제출할 {context} 내용이 달라질 수도 있다고 이해하면 맞을까요? {input} 값으로 벡터 검색한 내용이 {context} 값이 되는 단순한 방식은 아닌 것으로 이해했습니다.

김정헌 · Answer

와우~! 친절하고 세심하게 알려주셔서 감사합니다 강사님 최고에요^^

판다스 스튜디오 · Answer

안녕하세요. 우선 좋은 질문을 해주셔서 감사합니다. 실험하실 때 사용한 retriver가 아래 그림과 같이 Chroma 벡터 리트리버의 기본 설정을 적용했다면 유사도 기준으로 동일한 문서가 검색되어 {context} 내용으로 전달되는 것이 맞습니다. 다만 "mmr"이나 LLM 모델을 활용하여 쿼리를 생성하는 방식을 사용하신다면 벡터 검색 결과가 달라질 수 있습니다. langchain 소스코드를 확인했는데 특이 사항이 없었습니다. 검색 문서를 그대로 전달하도록 구성되어 있습니다. ( 링크 ) retriever = db.as_retriever() 이 설정에서 gpt-3.5-turbo-16k-0613, gpt-3.5-turbo-0125, gpt-4 모델을 제가 실험했을 때는 항상 동일한 문서가 검색되었습니다. OpenAI 모델을 사용하신다면 토큰 사용량을 확인할 수 있습니다. 아래 그림에서 보시면 Prompt Token 개수가 859개로 같은 것을 보실 수 있습니다. (아래 그림 참조) with get_openai_callback() as cb: response = retrieval_chain.invoke({"input": "what is the attention mechanism in transformers?"}) print(cb) 사용하신 벡터스토어와 리트리버를 포함한 코드를 주시면 상황을 이해하는데 더 도움이 될 것 같습니다. 추가적으로 궁금한 부분이 있으면 언제든 편하게 말씀해주세요. 감사합니다.