인프런 커뮤니티 질문&답변
문서 전처리에 관한 질문
해결된 질문
작성
·
80
0
안녕하십니까 강사님.
제공해주신 고품질의 강의 너무 잘 보고 있습니다.
3.6의 강의 내용 중 문서의 표에 대한 마크다운 전처리를 추천해주셨습니다.
만약 실시간으로 크롤링하는 데이터를 바탕으로 RAG 챗봇을 만든다고 했을 때, 크롤링된 문서를 자동적으로 전처리하는 로직은 따로 없을까요? 사용자가 수동적으로 해야하는 부분일까요?
감사합니다.
답변 2
0
안녕하세요, 인프런 AI 인턴입니다. 임해빈님께서 질문하신 문서의 자동 전처리에 대해 안내드리겠습니다.
문서의 자동 전처리, 특히 실시간 크롤링을 통한 데이터에 대해 관심이 많으신 것 같습니다. RAG를 활용한 LLM 애플리케이션에서 실시간 데이터를 다루는 것에는 몇 가지 방법이 가능합니다.
자동 전처리 방법
스크립트 기반 전처리:
- 파이썬과 같은 프로그래밍 언어로 스크립트를 작성하여 크롤링된 데이터를 자동으로 처리할 수 있습니다. BeautifulSoup이나 Scrapy와 같은 라이브러리를 활용하면 HTML 데이터를 쉽게 파싱할 수 있습니다.
- 데이터를 크롤링하면서 필요한 부분만 추출하고, 텍스트를 마크다운 형식으로 변환하는 스크립트를 작성할 수 있습니다.
- 파이썬과 같은 프로그래밍 언어로 스크립트를 작성하여 크롤링된 데이터를 자동으로 처리할 수 있습니다. BeautifulSoup이나 Scrapy와 같은 라이브러리를 활용하면 HTML 데이터를 쉽게 파싱할 수 있습니다.
ETL(Extract, Transform, Load) 프로세스 구축:
- 자동화된 데이터 파이프라인을 구축하여 데이터를 자동적으로 변환하고 로드할 수 있습니다. Apache NiFi와 같은 도구를 활용하여 실시간 데이터를 추출하고 전처리하는 워크플로우를 만들 수 있습니다.
- 자동화된 데이터 파이프라인을 구축하여 데이터를 자동적으로 변환하고 로드할 수 있습니다. Apache NiFi와 같은 도구를 활용하여 실시간 데이터를 추출하고 전처리하는 워크플로우를 만들 수 있습니다.
서드파티 API 활용:
- 특정 데이터 전처리 작업을 자동화하는 API 서비스들도 존재합니다. 이를 활용하면 코드 작성 없이도 데이터를 쉽게 처리할 수 있습니다.
- 특정 데이터 전처리 작업을 자동화하는 API 서비스들도 존재합니다. 이를 활용하면 코드 작성 없이도 데이터를 쉽게 처리할 수 있습니다.
모듈화된 전처리 함수 작성:
- 특정 패턴이나 규칙에 따라 데이터를 변환하는 함수를 작성하고, 크롤러가 데이터를 수집할 때마다 이 함수를 호출하여 전처리를 수행할 수 있습니다.
- 특정 패턴이나 규칙에 따라 데이터를 변환하는 함수를 작성하고, 크롤러가 데이터를 수집할 때마다 이 함수를 호출하여 전처리를 수행할 수 있습니다.
수동 vs. 자동
실시간 데이터의 특성상 수동으로 전처리하기에는 한계가 있습니다. 따라서 자동화된 방법을 사용하는 것이 효율적이며, 다양한 프로그래밍 도구와 API를 활용하여 전처리 작업을 극대화할 수 있습니다.
질문하신 내용과 연관된 비슷한 사례를 데이터 전처리 관련 질문드립니다에서 확인하실 수 있습니다. 이 게시물은 데이터 전처리에 대한 심도 있는 논의를 담고 있으며, 자동화된 프로세스를 어떻게 설정할지에 대한 인사이트를 제공할 것입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.






오오 감사합니다.
처음 듣는 오픈소스인데 한번 적용시켜보겠습니다.
답변달아주셔서 감사합니다!