inflearn logo
강의

講義

知識共有

RAGマスター:基礎から上級技法まで(feat. LangChain)

エンベディングモデルの活用 2 - OpenAI エンベディングモデル (OpenAIEmbeddings)

OpenAIEmbeddings모델이 사용하는 토크나이저는 뭘까요?

170

aytekin827

投稿した質問数 9

0

안녕하세요. 강의 잘 듣고 있습니다.

 

OpenAIEmbedding모델을 이용해서 텍스트를 벡터화 하는 것까지는 이해가 되었는데,

 

텍스트를 임베딩모델에 넣을 때, 토크나이징을 한 결과를 input으로 사용하는지, 그렇다면 어떤 토크나이징 모델을 사용하는지 궁금합니다.
아니면 토크나이징 없이 바로 임베딩 모델에 대입하는건가요?

python 챗봇 llm langchain rag

回答 2

0

pdstudio

안녕하세요. 판다스 스튜디오입니다.

OpenAI 임베딩 모델도 텍스트를 토크나이징한 후 처리합니다. 임베딩 모델도 내부적으로는 transformer 기반 아키텍처를 사용하기 때문에, 텍스트를 바로 처리할 수 없고 토큰 단위로 변환해야 합니다.

OpenAI의 임베딩 모델들(text-embedding-3-small 등)은 BPE(Byte Pair Encoding) 알고리즘을 기반으로 하는 tiktoken 토크나이저를 사용합니다.

감사합니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 아이테킨님.

OpenAIEmbeddings 모델을 사용할 때의 토크나이징 과정에 대해 설명드리겠습니다. 텍스트 데이터를 임베딩 모델에 넣기 전, 대부분의 경우 텍스트는 토크나이징 과정을 거치게 됩니다. 이 과정은 텍스트를 모델이 이해할 수 있는 형식으로 변환하는 과정입니다.

  1. 모델 내장 토크나이저 사용: 일반적으로 OpenAI의 모델들은 자체 내장된 토크나이저를 사용하여 입력 텍스트를 토큰으로 변환합니다. 이는 OpenAI에서 제공하는 표준화된 방법이며, 주로 Byte Pair Encoding (BPE) 또는 SentencePiece 같은 토크나이저를 사용합니다. 이러한 토크나이저는 모델 생성 시 학습된 사전(token vocabulary)을 기준으로 작동합니다.

  2. 토크나이징 과정: 토크나이저는 입력 텍스트를 작은 의미 단위(토큰)로 나누고, 이 토큰들이 모델에서 처리 가능한 정수 인덱스로 변환됩니다. 이 과정은 문맥에 맞게 정확한 표현을 위해 필수적입니다.

  3. 직접 입력 가능성: OpenAI의 모델 인터페이스는 보통 텍스트 자체를 입력 받아 내부에서 자동으로 토크나이징을 수행하도록 설계되어 있습니다. 따라서, 사용자가 별도로 토크나이징을 수행하지 않아도 자동으로 처리됩니다.

추가적으로, 사용자가 특정한 토크나이저를 지정해야 하는 경우는 거의 없으며, 모델이 제공하는 기본 설정을 따르는 것이 일반적입니다.

관련 게시글: OpenAI API와 토크나이징 관련 질문 이것이 도움이 될 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

테스트데이터셋 평가지표 값 문제

0

52

1

언어 감지 및 검색 라우팅

0

50

2

동영상이 검은 화면으로 나옵니다.

0

64

2

강의가 진행되지 않습니다.

0

65

2

'팀 단위 AI 업무 혁신' 자문 관련하여 문의드리고자 합니다. (연락처 요청)

0

53

1

Rerank에 대해 질문드립니다.

0

67

2

Cross Encoder Reranker 임포트 에러 관련 내용입니다.

0

101

2

HuggingFaceCrossEncoder 임포트 에러

0

81

2

아나콘다랑 pytry없이. 단순 파이참에서 venv 설정해서 설치하는건 불가능하나요?

0

80

1

2.7 전체 RAG파이프라인 구성에서 4번째 줄 오류

0

79

1

rag 와 랭체인

0

112

2

score 기반 서치

0

49

2

KR.txt파일이 없습니다.

0

77

2

krag를 이용한 검색기법 평가관련 질문

0

75

2

MMR 관련 질문입니다.

0

83

1

Text_splitter관련 질문입니다.

0

59

2

오픈api key는 따로 구매해야되는 걸까요?

0

251

2

과거 채팅이력을 LLM에 줄때 포멧

0

72

1

ChatPromptTemplate의 from_messages로 메세지를 구성할 때 system은 어떻게 설정해야하나요?

0

95

2

create_retrieval_chain에서 context는 지정된 인자인가요?

0

62

1

vectorstore의 as_retriever와 similarity_search는 같은 로직인가요?, 사용되는 검색 알고리즘은 뭔가요?

0

91

2

evaluate_retrieval_at_K 함수 문의드립니다.

0

66

2

검색기 관련 질문드립니다.

0

87

2

2-3 임베딩모델 에러

0

168

2