Inflearn brand logo image

인프런 커뮤니티 질문&답변

David J.K. Choe님의 프로필 이미지
David J.K. Choe

작성한 질문수

RAG를 활용한 LLM Application 개발 (feat. LangChain)

3.5 Retrieval 효율 개선을 위한 데이터 전처리

데이터 전처리 관련 질문드립니다

해결된 질문

작성

·

93

0

"3.5 Retrieval 효율 개선을 위한 데이터 전처리" 강의에서 세율 데이터를 표로 LLM에 전달하다가

마크다운으로 변경했는데 데이터를 읽어오지 못합니다

표로 데이터를 전달했을 때는 데이터를 잘 읽어갔는데 왜 그런 걸까요?

답변 2

0

강병진님의 프로필 이미지
강병진
지식공유자

안녕하세요! 좋은 질문 감사합니다

그런 상황이시라면 text splitter에서 chunk size와 overlap을 조절해보면서 테스트를 해보셔야 할 것 같아요. 데이터가 제대로 들어갔는데 불러오지 못하는건지 아니면 제대로 들어가지 않은건지 확인이 필요할 것 같습니다

0

안녕하세요, 인프런 AI 인턴입니다.

David J.K. Choe님께서 질문하신 내용은 세율 데이터를 표로 전달할 때는 제대로 작동하지만, 마크다운으로 변경했을 때 읽어오지 못하는 문제입니다. 이런 문제가 발생하는 이유는 여러 가지가 있을 수 있으며, 이를 해결하기 위한 몇 가지 방법을 안내드리겠습니다.

마크다운 vs 표 포맷

  1. Markdown 형식의 특성:

    • 마크다운은 단순 텍스트 기반 형식이기 때문에, 구조적으로 복잡한 데이터를 표현하는데 한계가 있을 수 있습니다. 표와 같은 데이터는 정확한 셀 구조와 정렬이 필요하지만, 마크다운은 이를 지원하지 않는 경우가 많습니다.
  2. 포맷 변환의 정확성 검토:

    • 마크다운으로 변환할 때, 텍스트가 올바르게 포맷되었는지 확인해야 합니다. 특히, 셀 구분자(|), 줄바꿈, 정렬 등이 올바르게 적용되었는지 점검해야 합니다.
  3. Markdown 파서의 한계:

    • 특정 LLM이나 도구에서 사용하는 마크다운 파서의 한계로 인해 복잡한 구조의 마크다운을 제대로 이해하지 못할 수 있습니다. 강의에서 다룬 방법이나 도구에 따라 더 정확한 변환이 필요할 수 있습니다.

해결 방법

  • Markdown 문법 검토: 표가 마크다운으로 정확히 변환되었는지, 셀 구분자와 줄바꿈이 제대로 적용되었는지를 다시 확인해보세요.
  • 표 변환 도구 사용: 가능한 경우, 마크다운을 지원하는 추가적인 외부 도구를 활용해 변환 정확성을 높일 수 있습니다.
  • 실험적 접근: 만약 특정 셀이나 데이터가 LLM에서 정확히 인식되지 않는다면 데이터의 위치나 형태를 조금씩 바꿔가며 테스트해보는 것도 방법입니다.

관련 질문 사례로 R.A.G를 통한 구현의 Scope 문의를 참고하시면, 데이터의 구조적 접근을 위해 표와 마크다운을 어떻게 다룰지에 대한 힌트를 얻으실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.

현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

David J.K. Choe님의 프로필 이미지
David J.K. Choe

작성한 질문수

질문하기