66,000원
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
selfqueryRetriever에서 contain,like 필터링 오류문제
안녕하세요 답해주셔서 감사합니다. Your goal is to structure the user's query to match the request schema provided below. << Structured Request Schema >> When responding use a markdown code snippet with a JSON object formatted in the following schema: ```json { "query": string \ text string to compare to document contents "filter": string \ logical condition statement for filtering documents } ``` The query string should contain only text that is expected to match the contents of documents. Any conditions in the filter should not be mentioned in the query as well. A logical condition statement is composed of one or more comparison and logical operation statements. A comparison statement takes the form: comp(attr, val): - comp (eq | ne | gt | gte | lt | lte | contain | like | in | nin): comparator - attr (string): name of attribute to apply the comparison to - val (string): is the comparison value A logical operation statement takes the form op(statement1, statement2, ...): - op (and | or | not): logical operator - statement1, statement2, ... (comparison statements or logical operation statements): one or more statements to apply the operation to Make sure that you only use the comparators and logical operators listed above and no others. Make sure that filters only refer to attributes that exist in the data source. Make sure that filters only use the attributed names with its function names if there are functions applied on them. Make sure that filters only use format YYYY-MM-DD when handling date data typed values. Make sure that filters take into account the descriptions of attributes and only make comparisons that are feasible given the type of data being stored. Make sure that filters are only used as needed. If there are no filters that should be applied return "NO_FILTER" for the filter value. 이런 스키마를 가지고있잖아요. 근데 contain이랑 like가 인식이 안되는 오류가 있습니다. 그래서 에러가 떠버럽니다. 그거에 대해 해결방법이 있을까요 --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-54-5a63d86f57f7> in <cell line: 1>() ----> 1 results = retriever.get_relevant_documents( 2 "롤과 배그가 돌아가는 컴퓨터 견적을 추천해줘" 3 ) 4 5 for res in results: 12 frames /usr/local/lib/python3.10/dist-packages/langchain_core/structured_query.py in _validate_func(self, func) 24 if isinstance(func, Comparator) and self.allowed_comparators is not None: 25 if func not in self.allowed_comparators: ---> 26 raise ValueError( 27 f"Received disallowed comparator {func}. Allowed " 28 f"comparators are {self.allowed_comparators}" ValueError: Received disallowed comparator like. Allowed comparators are [<Comparator.EQ: 'eq'>, <Comparator.NE: 'ne'>, <Comparator.GT: 'gt'>, <Comparator.GTE: 'gte'>, <Comparator.LT: 'lt'>, <Comparator.LTE: 'lte'>]이런오류가뜹니다.
- 미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
상품추천GPT에서 데이터를 바꿔 사용하는데 오류나는 이슈
안녕하세요. 강의를 듣고 컴퓨터견적데이터를 뽑아와서 컴퓨터견적을 추천해주는 gpt를 만들고싶어서 가져왔지만 메타데이터를 뽑을때 별점이나 날짜같은 유효성있는데이터를 넣어야지 제대로 필터가 되는것같은데 컴퓨터견적데이터 자체가 게이밍,코딩용이런식으로 구분지을수없는 데이터이고 또한 메타데이터에 뭐를 넣을까 생각이 안듭니다. 또한 page_content에 json데이터를 넣으면 필터를 잘해줄까?에 대한 의문점도 생깁니다. 어떤방식으로 하면 컴퓨터 견적에 대한 추천을 잘해줄까요? 이런식의 데이터 5000개정도 있습니다. 그리고 강의와 같이 여러 json으로 나누어 사용했습니다.{ "quote_number": "1200", "quote_title": "로스트아크 풀옵션, 작업 병행용 컴퓨터(5700X, RX 6700XT)", "date_create": "2023.10.10", "cpu_gpu_combinations": "라이젠7 5700X + RX 6700 XT 조합", "quotation_summary": " 1. 라데온 그래픽카드에 거부감이 없는 분2. 가성비를 극대화 하시려는 분3. 게임과 작업을 병행하시는 분# 영상편집# 게임# 롤# 배그# 가성비# 로아", "quote_person_introduction": "안녕하세요. 견적왕에서 견적맨으로 활동하고 있는 coke-bear 입니다.퀘이사존에서 주로 활동하며 그 외 커뮤니티에서도 간간히 활동하고 있습니다.하드웨어에 관심이 많아 제품을 직접 사용해보기도 하고 주변 지인들 PC 견적부터 조립도 해주다보니PC 구매를 어려워하거나 용도에 맞지 않게 구매하여 불필요한 지출을 하는 경우를 보게 되었습니다.그런 분들께 조금이라도 도움이 되고자 PC 구매자분들께 합리적인 구매를 할 수 있게 견적맨으로 활동하게 되었습니다.", "quote_feedback": "게임을 하면서 영상 편집 또한 취미 수준으로 한다거나 다른 다중 작업을 하는 경우라면 8코어 cpu 이상을 사용해주어야 하는데 이 때 가장 가성비로 구성할 수 있는 cpu라 5700x 입니다.좀 더 전문적이라면 더 좋은 cpu를 구성하여 멀티작업 성능을 늘릴 수 있지만 한정된 예산으로 구성해야하고 이제 배우는 단계라면 8코어 제품 중 가성비가 가장 뛰어난 5700x 구성을 추천드립니다.RX 6700 XT의 가격이 내려온 관계로 매우 가성비가 좋아져서 현재로서는 성능 대비해서 가격이 가성비가 좋아 구성하였습니다.", "computer_estimate_data": "[CPU]AMD 라이젠7-4세대 5700X (버미어) (멀티팩(정품))상세보기[메인보드]ASUS PRIME B550M-A 대원CTS상세보기[메모리]마이크론 Crucial DDR4-3200 CL22 (16GB) x 2 개상세보기[그래픽카드]PowerColor 라데온 RX 6700 XT Fighter D6 12GB상세보기[SSD]마이크론 Crucial P5 Plus M.2 NVMe 대원CTS (1TB)상세보기[케이스]DARKFLASH DK260 Air MESH RGB 강화유리 블랙 (미들타워)상세보기[파워서플라이]맥스엘리트 MAXELITE MAXWELL BARON 800W 80PLUS BRONZE 플랫상세보기[CPU쿨러]DARKFLASH Ellsworth S21 ARGB (블랙)상세보기[조립PC관련][견적왕] 조립 서비스 + 1년 출장 A/S상세보기", "quote_description": "CPU는 라이젠 5000번대 8코어 제품으로 8코어 cpu 이상을 요구하는 작업용 pc에서 저렴하게 구성 가능한 cpu입니다.메인보드는 am4 소켓을 지원하는 b550 칩셋 중 5600x나 5700x를 사용하기에 준수한 성능을 가진 메인보드 입니다.메모리는 삼성 메모리와 동일한 3200 클럭에 라이프워런티를 가지고 있어 AS 부분에서는 더 상위 호환의 제품입니다.그래픽카드는 6700 XT 중 가장 저렴한 가격대의 파워컬러 제품입니다.SSD는 pcie4.0 제품이며 가격대는 pcie3.0 의 p31 보다 저렴한 제품입니다.케이스는 다크 플래쉬의 DK 260 AIR 미들타워 제품입니다. 가격 대비 강판 두께나 기본팬 성능이 출중한 편입니다.파워서플라이는 국내 파워 회사 중 as 부분에서 상위 퀄리티를 가진 맥스엘리트의 800w 파워 입니다.CPU쿨러는 다크플래쉬의 s21 쿨러입니다.\n기본 무뽑방지가 적용되어 있고 더 높은 가격대의 팔라딘이나 rc400 이랑 쿨링 성능이 동일하고 소음 부분에서는 더 정숙하여 가성비가 좋습니다.", "CPU": { "제품명": "AMD 라이젠7-4세대 5700X)", "가격": "238,010원", "수량": "1" }, "메인보드": { "제품명": "ASUS PRIME B550M-A 대원CTS", "가격": "121,960원", "수량": "1" }, "메모리": { "제품명": "마이크론 Crucial DDR4-3200 CL22 16GB", "가격": "41,840원", "수량": "2" }, "그래픽카드": { "제품명": "PowerColor 라데온 RX 6700 XT Fighter D6 12GB", "가격": "402,400원", "수량": "1" }, "SSD": { "제품명": "마이크론 Crucial P5 Plus M.2 NVMe 대원CTS 1TB", "가격": "127,000원", "수량": "1" }, "케이스": { "제품명": "DARKFLASH DK260 Air MESH RGB 강화유리 블랙", "가격": "50,500원", "수량": "1" }, "파워서플라이": { "제품명": "맥스엘리트 MAXELITE MAXWELL BARON 800W 80PLUS BRONZE 플랫", "가격": "84,160원", "수량": "1" }, "CPU쿨러": { "제품명": "DARKFLASH Ellsworth S21 ARGB", "가격": "27,380원", "수량": "1" }, "total_price": "1700000원" }
- 미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
Rag 사용시 전혀 관계없는 데이터를 가져오는 이슈
안녕하세요 rag를 공부하고 실제로 테스트를 하기위해서open ai를 사용하여 서비스 이름과 서비스 담당자 관련한 정보가 존재하는 csv 데이터를 아래처럼 임베딩 한 뒤 index_name = "manager" # CSV 파일 로딩 loader = CSVLoader(file_path="manager.csv", encoding="utf-8") docs = loader.load() # text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0) # docs = text_splitter.split_documents(documents) embedding_model= OpenAIEmbeddings(openai_api_key=OPENAI_KEY) vectorstore = ElasticsearchStore( embedding=embedding_model, index_name=index_name, es_url=es_url ) vectorstore.add_documents(docs) 데이터는 아래 형태로 embedding 하여 text에 들어가 있습니다.이름: (서비스 이름)메인 담당자:개발 담당자: 정(XXX) 부(XXX, XXX, XXX, XXX)SE 담당자: 정(YYY3) 부(ZZZ)DBA 담당자:아래처럼 프롬프트를 작성하고 rag를 사용하여 relevant_document를 통하여 확인하면,실제로 text에 들어가있는 데이터를 안가져오고 엉뚱한 데이터를 가져오거나실제로 관련 담당자가 text에 포함되는 데이터가 여러개가 실제로 존재하더라도 한 개만 가져오고 나머지는 엉뚱한 document만 가져오는 경우가 많은 것 같습니다.rag_prompt = """ You are an expert AI on a question and answer task. Use the "Following Context" when answering the question. If you don't know the answer, reply to the "Following Text" in the header and answer to the best of your knowledge, or if you do know the answer, answer without the "Following Text". If a question is asked in Korean, translate it to English and always answer in Korean. Following Text: "주어진 정보에서 답변을 찾지는 못했지만, 제가 아는 선에서 답을 말씀드려볼게요! **틀릴 수도 있으니 교차검증은 필수입니다!**" Following Context: {context} Question: {question} Helpful Answer:""" prompt = ChatPromptTemplate(input_variables=['context', 'question'], messages=[HumanMessagePromptTemplate(prompt=PromptTemplate( input_variables=['context', 'question'], template= rag_prompt)) ]) # LLM from langchain.chains import RetrievalQA from langchain.chat_models import ChatOpenAI llm = ChatOpenAI(model_name="gpt-3.5-turbo-0125", temperature=0, openai_api_key=OPENAI_KEY) retriever = vectorstore.as_retriever( search_type="similarity", return_source_documents=True ) resp = retriever.get_relevant_documents("XXX가 담당하는 서비스 알려줘") print(resp)혹시나 엉뚱한 document를 안가져오고 해당되는 값이 포함되는 document만 가지고 올 수 있도록 할 수 있는지 여쭤봅니다! 정리하자면 1:n으로 연관되어있는 내용에서 1에 대한 정보를 물어보면 내용을 잘가져오는 것 같은데 n에 대한 질문을 하면 정보를 전혀 못가져 오는 것 같은데 이를 해결하는 방법론이 있을지 여쭤봅니다!
- 미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
bert vs gpt 의 혼란스러운 점
google 는 트랜스포머의 인코더 bert 모델로 채팅서비스를 만들고, openai 는 트랜스포머의 디코더 gpt 모델로 채팅서비스를 만들었다고 들었습니다. 그런데 내가 궁금한것은 bert 모델(판단모델)은 판단을 하는 역할을 하고, gpt 모델은 대화를 생성(생성모델)하는 모델인데, 두 모델중 하나만 가지고 어떻게 각각의 회사가 채팅서비스를 만들었나요?
- 미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
chromadb 용량
chromadb에 데이터를 insert 하는데 용량이 object 하나당 2MB가 되는게 정상일까요?
- 해결됨모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
RAG에서 Generator으로 어떤 데이터가 들어가는지 볼 수 있는 방법이 있나요?
안녕하세요, 다시 질문드릴 것이 있어 글 남깁니다. RAG에서 Retriever가 Generator에 보내는 데이터가 무엇인지 확인해보고 싶고, Generator에서도 중간에 어떤 데이터를 받는지 확인해보고 싶은데 가능한 방법이 있다면 알려주시면 좋겠습니다.. 아마 제가 보낸 쿼리에 대한 similarity search의 결과를 줄 것같긴한데,정말 generator들어가기 전에 어떤 데이터가 들어가는지 뜯어보고 싶어서요. 감사합니다.
- 미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
RAG 실습 강의에서 template 문구 관련해 질문이 있습니다.
RAG 실습 강의에서 template = """다음과 같은 맥락을 사용하여 마지막 질문에 대답하십시오.만약 답을 모르면 모른다고만 말하고 답을 지어내려고 하지 마십시오.답변은 최대 세 문장으로 하고 가능한 한 간결하게 유지하십시오.항상 '질문해주셔서 감사합니다!'라고 답변 끝에 말하십시오.{context}질문: {question}도움이 되는 답변:""" 템플릿 문구 맨 아래에 '도움이 되는 답변:' 이 부분은 왜 필요한 건가요?? 모델이 생성해주는 답변에 어떤 방식으로 도움이 되는 걸까요??
- 미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
RAG의 데이터 소스로 RDB 사용 시 어떤 로더를 사용해야 하나요?
안녕하세요 강의 잘 듣고 있습니다.RAG방식과 관련해 현업에서는 실제 어떻게 사용하는지 알고 싶어 여쭤봅니다. 데이터 소스로 RDB를 사용하고 싶은 경우 어떤 로더를 사용해 연동을 하나요??DB와 직접 연동은 힘들고 해당하는 데이터를 파일도 별도로 추출하여 사용해야 할까요?? 구글링하여도 벡터 디비를 사용하는 방식만 나와 답답해서 질문 드립니다 ㅠㅠ langchain에서 지원하는 로더 대신에 사용하는 외부 모듈이 존재할까요?? aws와 같은 퍼블릭 클라우드의 s3나 엘라스틱 서치를 데이터 소스로 하여 사용하고 싶은 경우는 어떻게 설정하는 것이 좋을지 문의 드립니다.보통 S3 버킷을 데이터 소스로 하여 정의할 때 s3를 호스팅하여 urlLoader를 이용해 사용하는 방식을 많이 차용하나요? aws의 ElasticSearch를 검색 시스템으로 사용하고 싶은데, 참고할 만한 힌트가 있을까요?... 해당 모듈을 바로 직접적으로 import해서 vectorDB대신 사용하는 것인지, 혹은 ES를 데이터 소스로하여 데이터롤 로드해서 vectorDB에 넣고 사용하는 것인지 감이 잘 잡히지 않습니다 ㅠ
- 미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
db.delete_collection() db가 정의되어 있지 않아 문의드립니다.
임베딩 모델을 변경하는 경우db.delete_collection() 로 먼저 저장해 놓은 DB를 삭제한다고 하셨는데요.db 가 정의되지 않은 상태입니다.(다음 행에 db = Chroma~~ 가 있음) collection 삭제하는 방법에 대해 확인 부탁드리겠습니다.
- 미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
GPT api 토큰 제한
안녕하세요. 강의 잘 듣고 있습니다. 한 가지 궁금한 것이 있는데,SQL agent로 많은 데이터셋을 넣어주면서 질문을 할 경우 GPT4 api 를 사용했을 때 금방 하루 토큰을 다 사용했다고 뜹니다. 개인 api는 하루용 토큰이 이렇게 금방 소진 되어 테스트를 많이 해볼 수가 없어서요,그러면 기업용으로 api를 구매하면 하루에 사용 가능한 토큰에 제한이 없는지 궁금합니다.
- 미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
Data Loader 관해서
대용량 데이터를 벡터디비에 넣기 위해 PDF, MD, 웹스크래핑 등 다양한 데이터가 있는데요 pdf 도 몇십개 md 파일도 몇십개 웹스크래핑은 그냥 리스트로 묶으면되는거 같은데 이 외에는 반복문으로 로드시켜서 코드를 구현하는건지 궁금하고,Pdf document, md document, web document 가 생겼을때 이 셋을 어떻게 머지하는지가 궁금합니다.
- 해결됨모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
llm모델과 vectordb를 생성하는 retrevial모델이 다른경우, 어떻게 작동하는지 궁금합니다.
안녕하세요, 수업을 잘 듣고 사용하고 있는 기업 연구원입니다.llm모델과 retrevial모델이 다른 경우 벡터값이 다를텐데, 어떻게 작동하는지 모르겠어서 질문드립니다.자세한 내용은 아래와 같습니다.Retrevial모델로는 mpnet을 사용합니다.model_name = "sentence-transformers/all-mpnet-base-v2" model_kwargs = {"device": "cuda:0"} embeddings = HuggingFaceEmbeddings(model_name=model_name, model_kwargs=model_kwargs )이러한 임베딩 모델을 선언한 뒤에, chroma로 vectordb를 만들었다고 가정하고,llm틀은 llama2를 사용하여 쿼리 파이프라인을 만들었습니다.retriever = vectordb.as_retriever() query_pipeline = transformers.pipeline( "text-generation", model=model, # 모델id: 'meta-llama/Llama-2-7b-chat-hf'로 함 (생략됨) tokenizer=tokenizer, torch_dtype=torch.float16, device_map= device, ) llm = HuggingFacePipeline(pipeline=query_pipeline) qa = RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", retriever=retriever, verbose=True )이런식으로 해서 사용을 해도 사용이 잘 되는 것을 확인했습니다만 이해가 안됩니다. 제가 '쿼리'를 보내면, llama2 모델이 벡터화를 할 것이고, 벡터db에서 찾을때는 "sentence-transformers/all-mpnet-base-v2"이 모델로 벡터화 된 데이터를 찾을 것인데 이 두 벡터 값이 다를 것 같은데 왜 작동이 되는 건가요? 제 생각으로는 두개의 다른 모델이라면 같은 문장이어도 다른 벡터값을 가질텐데, 어떻게 이게 두개의 언어모델이 다른데 작동하는건지 궁금합니다. 답변 기다리겠습니다. 감사합니다:) 좋은 교육 받을 수 있어서 기쁩니다.
- 미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기
수업자료 제공 여부
안녕하세요? 파트1의 경우 수업자료 슬라이드가 올라와 있던데 파트2는 제공되지 않는지요? 감사합니다.