Inflearn brand logo image

인프런 커뮤니티 질문&답변

임해빈님의 프로필 이미지
임해빈

작성한 질문수

RAG를 활용한 LLM Application 개발 (feat. LangChain)

3.6 Retrieval 효율 개선을 위한 키워드 사전 활용

문서 전처리에 관한 질문

해결된 질문

작성

·

37

0

안녕하십니까 강사님.

 

제공해주신 고품질의 강의 너무 잘 보고 있습니다.

3.6의 강의 내용 중 문서의 표에 대한 마크다운 전처리를 추천해주셨습니다.

만약 실시간으로 크롤링하는 데이터를 바탕으로 RAG 챗봇을 만든다고 했을 때, 크롤링된 문서를 자동적으로 전처리하는 로직은 따로 없을까요? 사용자가 수동적으로 해야하는 부분일까요?

 

감사합니다.

 

답변 2

0

강병진님의 프로필 이미지
강병진
지식공유자

안녕하세요 해빈님! 좋은 질문 감사합니다.

오픈소스로는 py-zerox를 사용해서 파이프라인을 구축할 수 있을 것 같습니다. 크롤링한 컨텐츠를 pdf형식으로 저장하고, py-zerox를 구동하면 마크다운 파일로 저장되는데요, 저장된 마크다운 파일을 랭체인 로더로 연동하시면 될 것 같아요!

임해빈님의 프로필 이미지
임해빈
질문자

오오 감사합니다.

처음 듣는 오픈소스인데 한번 적용시켜보겠습니다.

 

답변달아주셔서 감사합니다!

0

안녕하세요, 인프런 AI 인턴입니다. 임해빈님께서 질문하신 문서의 자동 전처리에 대해 안내드리겠습니다.

문서의 자동 전처리, 특히 실시간 크롤링을 통한 데이터에 대해 관심이 많으신 것 같습니다. RAG를 활용한 LLM 애플리케이션에서 실시간 데이터를 다루는 것에는 몇 가지 방법이 가능합니다.

자동 전처리 방법

  1. 스크립트 기반 전처리:

    • 파이썬과 같은 프로그래밍 언어로 스크립트를 작성하여 크롤링된 데이터를 자동으로 처리할 수 있습니다. BeautifulSoup이나 Scrapy와 같은 라이브러리를 활용하면 HTML 데이터를 쉽게 파싱할 수 있습니다.
    • 데이터를 크롤링하면서 필요한 부분만 추출하고, 텍스트를 마크다운 형식으로 변환하는 스크립트를 작성할 수 있습니다.
  2. ETL(Extract, Transform, Load) 프로세스 구축:

    • 자동화된 데이터 파이프라인을 구축하여 데이터를 자동적으로 변환하고 로드할 수 있습니다. Apache NiFi와 같은 도구를 활용하여 실시간 데이터를 추출하고 전처리하는 워크플로우를 만들 수 있습니다.
  3. 서드파티 API 활용:

    • 특정 데이터 전처리 작업을 자동화하는 API 서비스들도 존재합니다. 이를 활용하면 코드 작성 없이도 데이터를 쉽게 처리할 수 있습니다.
  4. 모듈화된 전처리 함수 작성:

    • 특정 패턴이나 규칙에 따라 데이터를 변환하는 함수를 작성하고, 크롤러가 데이터를 수집할 때마다 이 함수를 호출하여 전처리를 수행할 수 있습니다.

수동 vs. 자동

실시간 데이터의 특성상 수동으로 전처리하기에는 한계가 있습니다. 따라서 자동화된 방법을 사용하는 것이 효율적이며, 다양한 프로그래밍 도구와 API를 활용하여 전처리 작업을 극대화할 수 있습니다.

질문하신 내용과 연관된 비슷한 사례를 데이터 전처리 관련 질문드립니다에서 확인하실 수 있습니다. 이 게시물은 데이터 전처리에 대한 심도 있는 논의를 담고 있으며, 자동화된 프로세스를 어떻게 설정할지에 대한 인사이트를 제공할 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

임해빈님의 프로필 이미지
임해빈

작성한 질문수

질문하기