inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

RAG를 활용한 LLM Application 개발 (feat. LangChain)

3.6 Retrieval 효율 개선을 위한 키워드 사전 활용

문서 전처리에 관한 질문

해결된 질문

118

임해빈

작성한 질문수 20

0

안녕하십니까 강사님.

 

제공해주신 고품질의 강의 너무 잘 보고 있습니다.

3.6의 강의 내용 중 문서의 표에 대한 마크다운 전처리를 추천해주셨습니다.

만약 실시간으로 크롤링하는 데이터를 바탕으로 RAG 챗봇을 만든다고 했을 때, 크롤링된 문서를 자동적으로 전처리하는 로직은 따로 없을까요? 사용자가 수동적으로 해야하는 부분일까요?

 

감사합니다.

 

vector-database llm langchain rag openai-api

답변 2

0

제이쓴

안녕하세요 해빈님! 좋은 질문 감사합니다.

오픈소스로는 py-zerox를 사용해서 파이프라인을 구축할 수 있을 것 같습니다. 크롤링한 컨텐츠를 pdf형식으로 저장하고, py-zerox를 구동하면 마크다운 파일로 저장되는데요, 저장된 마크다운 파일을 랭체인 로더로 연동하시면 될 것 같아요!

1

임해빈

오오 감사합니다.

처음 듣는 오픈소스인데 한번 적용시켜보겠습니다.

 

답변달아주셔서 감사합니다!

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 임해빈님께서 질문하신 문서의 자동 전처리에 대해 안내드리겠습니다.

문서의 자동 전처리, 특히 실시간 크롤링을 통한 데이터에 대해 관심이 많으신 것 같습니다. RAG를 활용한 LLM 애플리케이션에서 실시간 데이터를 다루는 것에는 몇 가지 방법이 가능합니다.

자동 전처리 방법

  1. 스크립트 기반 전처리:

    • 파이썬과 같은 프로그래밍 언어로 스크립트를 작성하여 크롤링된 데이터를 자동으로 처리할 수 있습니다. BeautifulSoup이나 Scrapy와 같은 라이브러리를 활용하면 HTML 데이터를 쉽게 파싱할 수 있습니다.
    • 데이터를 크롤링하면서 필요한 부분만 추출하고, 텍스트를 마크다운 형식으로 변환하는 스크립트를 작성할 수 있습니다.
  2. ETL(Extract, Transform, Load) 프로세스 구축:

    • 자동화된 데이터 파이프라인을 구축하여 데이터를 자동적으로 변환하고 로드할 수 있습니다. Apache NiFi와 같은 도구를 활용하여 실시간 데이터를 추출하고 전처리하는 워크플로우를 만들 수 있습니다.
  3. 서드파티 API 활용:

    • 특정 데이터 전처리 작업을 자동화하는 API 서비스들도 존재합니다. 이를 활용하면 코드 작성 없이도 데이터를 쉽게 처리할 수 있습니다.
  4. 모듈화된 전처리 함수 작성:

    • 특정 패턴이나 규칙에 따라 데이터를 변환하는 함수를 작성하고, 크롤러가 데이터를 수집할 때마다 이 함수를 호출하여 전처리를 수행할 수 있습니다.

수동 vs. 자동

실시간 데이터의 특성상 수동으로 전처리하기에는 한계가 있습니다. 따라서 자동화된 방법을 사용하는 것이 효율적이며, 다양한 프로그래밍 도구와 API를 활용하여 전처리 작업을 극대화할 수 있습니다.

질문하신 내용과 연관된 비슷한 사례를 데이터 전처리 관련 질문드립니다에서 확인하실 수 있습니다. 이 게시물은 데이터 전처리에 대한 심도 있는 논의를 담고 있으며, 자동화된 프로세스를 어떻게 설정할지에 대한 인사이트를 제공할 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

온톨로지 활용

0

44

2

ollama설치해서 llama로 돌려도 되나요?

0

46

2

소득세법 docx 파일 공유 요청건

0

95

1

EXAONE 모델 불러오기 안되는 문제

0

95

2

[5.1 강의] LLM Evaluator에 Upstage를 사용하는 방법 + 변경된 Langsmith Docs를 참고하여 구현하는 방법 공유

0

125

2

강의 9에 QA관련된 import가 되지 않네요

0

125

2

🚨 python3.14 를 쓰고 계시면 chroma 에서 ConfigError 가 발생합니다.

1

224

1

강의와 책 관련 질문

0

96

1

문서 전처리 고민

0

121

1

RAG 배포 질문드립니다

0

106

1

강의 내용과는 별개로 궁금한 점이 있습니다

0

98

2

폐쇄망 챗봇 모델

0

102

1

AI agent 쿠폰

0

99

2

저는 왜 그대로 했는데 답변이 틀리게 나오는지 모르겠네요

0

109

2

langchain howto/sequence는 지금 doc 공식 사이트 어디서 확인할 수 있나요?

1

100

1

new_question에 대한 답 출력

0

80

2

랭체인 라이브러리

0

159

2

[LangGraph를 활용한 AI Agent 개발] 쿠폰 유효기간

0

111

1

postgresql의 pgvector 벡터는 어떤가요?

0

383

2

doc관련

0

144

2

load_dotenv() 실행 False

0

103

1

RAG 답변 개선을 위한 정답지 활용 구조 검토 요청

0

125

2

3.2 from langchain.chains ~ 에서 모듈을 찾지 못할 때.

2

429

2

강의 완료 오류

0

94

1