작성
·
51
1
markdown(md) 을 text(txt) 로 변환한 다음에 load 하고 split 을 해줘야함
txt 로 변환된 건 langchain 의 textloader 를 써서 load 해야함
이때, utf-8로 encoding 된 txt 파일을 langchain_community 로 TextLoader 하려고 할때 encoding 을 안쓰게 되면 cp949 에러가 나게 됩니다.
너무 기초적인 질문이라 질문글에 없는 것 같아 혹시 저같은 초보를 위해 기록을 남겨 둡니다.^^
(참고로 저는 윈도우 환경으로 따라 하고 있는 중 입니다)
from langchain_community.document_loaders import TextLoader
loader = TextLoader(text_path, encoding='utf-8') # ✅ 인코딩 명시
document_list = loader.load_and_split(text_splitter)
또한 윈도우에서 uv.lock 을 읽어들일수가 없었는데요...
혹시 윈도우에서도 가능하셔서 하신분 계시면 노하우(?) 부탁드릴게요~