split시 encode/decode관련 질문
안녕하세요.
langChain을 쓰지 않고 수동으로 split하는 부분 보여주시던 부분 관련해서 질문드립니다.
질문1.
encode후에 chunk 묶고 다시 decode하는이유가 무엇인가요? 그냥 encode하지 않고 적절히 묶어 잘라도 되지 않나 싶은 생각을 했는데요.
그냥 text 기반으로 chunk를 묶어버리기만 하면 별로 의미있게 잘리지 않기때문이다..로 이해해야할까요?
질문2.
인코딩하면 해당 텍스트 token이 숫자로 변환되는것같던데요.
그 숫자가 정말 텍스트의 의미를 대체하여 의미를 갖게 되는건지? 아니면 그냥
키:값으로 저장시키고 그 키값으로 참조할수있게 바꿔놓는다는 의미인건지? 가 궁금합니다.
답변 2
0
안녕하세요! AI 인턴이 잘 답변해줬네요.
2번은 AI 인턴의 답변을 그대로 받아들이시면 되고, 1번 질문에만 첨언하자면
문장의 의미나 맥락 보존의 관점도 있지만, 토큰 수를 직접 count하지 않으면 말씀하신 "적절히 묶는 과정"이 어려워집니다. 강의에서는 chunk_size=1500 으로 자르기 때문에 전체 텍스트를 인코딩 하지 않고 1500으로 잘라도 무리없이 진행될거에요. 그런데 chunk size를 임베딩 모델의 인풋 최대치 기준으로 자른다고 하면, encoding을 하지 않고 텍스트를 chunk로 잘랐을 때는 임베딩 모델 인풋의 max값을 초과할 위험이 있습니다
0
안녕하세요, 인프런 AI 인턴입니다.
jungu.kim님 질문에 답변드립니다.
질문1에 대한 답변:
encode 후에 chunk를 묶고 다시 decode하는 이유는, 해당 과정을 거치지 않고 텍스트 기반으로 chunk를 나누게 될 경우, 문장의 의미나 맥락을 온전히 보존하지 못할 수 있기 때문입니다. 인코딩과 디코딩 과정을 통해 언어 모델이 이해할 수 있는 형식으로 변환하고, 이를 기반으로 적절한 크기의 단위로 나누어 처리함으로써 텍스트의 의미구조를 보다 효율적으로 반영할 수 있습니다.
질문2에 대한 답변:
인코딩 과정에서 텍스트가 토큰으로 변환되고, 이 토큰들이 숫자로 매핑되는 것은, 언어 모델이 텍스트의 의미를 숫자 형태의 벡터 공간에 매핑하여 이해할 수 있도록 하기 위함입니다. 이 숫자들은 텍스트의 의미, 문맥 등을 나타내는 다양한 차원을 포함하며, 따라서 단순한 ‘키:값’의 참조보다는 텍스트의 세밀한 의미를 포착하여 모델이 처리할 수 있는 형태로 변환하는 과정입니다. 즉, 이 숫자들은 실제 텍스트의 의미를 대체하여 언어 모델이 텍스트 정보를 처리하고 이해하는 데 사용됩니다.
질문에 대한 답변이 도움이 되었길 바랍니다. 추가적인 질문이 있으시면 언제든 문의주세요.
소득세법 docx 파일 공유 요청건
0
65
1
EXAONE 모델 불러오기 안되는 문제
0
89
2
[5.1 강의] LLM Evaluator에 Upstage를 사용하는 방법 + 변경된 Langsmith Docs를 참고하여 구현하는 방법 공유
0
104
2
강의 9에 QA관련된 import가 되지 않네요
0
111
2
🚨 python3.14 를 쓰고 계시면 chroma 에서 ConfigError 가 발생합니다.
1
200
1
강의와 책 관련 질문
0
87
1
문서 전처리 고민
0
111
1
RAG 배포 질문드립니다
0
95
1
강의 내용과는 별개로 궁금한 점이 있습니다
0
89
2
폐쇄망 챗봇 모델
0
94
1
AI agent 쿠폰
0
95
2
저는 왜 그대로 했는데 답변이 틀리게 나오는지 모르겠네요
0
102
2
langchain howto/sequence는 지금 doc 공식 사이트 어디서 확인할 수 있나요?
1
95
1
new_question에 대한 답 출력
0
74
2
랭체인 라이브러리
0
148
2
[LangGraph를 활용한 AI Agent 개발] 쿠폰 유효기간
0
106
1
postgresql의 pgvector 벡터는 어떤가요?
0
345
2
doc관련
0
128
2
load_dotenv() 실행 False
0
96
1
RAG 답변 개선을 위한 정답지 활용 구조 검토 요청
0
119
2
3.2 from langchain.chains ~ 에서 모듈을 찾지 못할 때.
1
406
2
강의 완료 오류
0
89
1
hub.pull 이슈
0
131
2
[3.3 강의] Upstage를 사용한 RAG 구현 성공기 공유
1
150
1





