inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

RAG를 활용한 LLM Application 개발 (feat. LangChain)

3.5 Retrieval 효율 개선을 위한 데이터 전처리

데이터 전처리 관련 질문드립니다

해결된 질문

194

David J.K. Choe

작성한 질문수 2

0

"3.5 Retrieval 효율 개선을 위한 데이터 전처리" 강의에서 세율 데이터를 표로 LLM에 전달하다가

마크다운으로 변경했는데 데이터를 읽어오지 못합니다

표로 데이터를 전달했을 때는 데이터를 잘 읽어갔는데 왜 그런 걸까요?

vector-database llm langchain rag openai-api

답변 2

0

제이쓴

안녕하세요! 좋은 질문 감사합니다

그런 상황이시라면 text splitter에서 chunk size와 overlap을 조절해보면서 테스트를 해보셔야 할 것 같아요. 데이터가 제대로 들어갔는데 불러오지 못하는건지 아니면 제대로 들어가지 않은건지 확인이 필요할 것 같습니다

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

David J.K. Choe님께서 질문하신 내용은 세율 데이터를 표로 전달할 때는 제대로 작동하지만, 마크다운으로 변경했을 때 읽어오지 못하는 문제입니다. 이런 문제가 발생하는 이유는 여러 가지가 있을 수 있으며, 이를 해결하기 위한 몇 가지 방법을 안내드리겠습니다.

마크다운 vs 표 포맷

  1. Markdown 형식의 특성:

    • 마크다운은 단순 텍스트 기반 형식이기 때문에, 구조적으로 복잡한 데이터를 표현하는데 한계가 있을 수 있습니다. 표와 같은 데이터는 정확한 셀 구조와 정렬이 필요하지만, 마크다운은 이를 지원하지 않는 경우가 많습니다.
  2. 포맷 변환의 정확성 검토:

    • 마크다운으로 변환할 때, 텍스트가 올바르게 포맷되었는지 확인해야 합니다. 특히, 셀 구분자(|), 줄바꿈, 정렬 등이 올바르게 적용되었는지 점검해야 합니다.
  3. Markdown 파서의 한계:

    • 특정 LLM이나 도구에서 사용하는 마크다운 파서의 한계로 인해 복잡한 구조의 마크다운을 제대로 이해하지 못할 수 있습니다. 강의에서 다룬 방법이나 도구에 따라 더 정확한 변환이 필요할 수 있습니다.

해결 방법

  • Markdown 문법 검토: 표가 마크다운으로 정확히 변환되었는지, 셀 구분자와 줄바꿈이 제대로 적용되었는지를 다시 확인해보세요.
  • 표 변환 도구 사용: 가능한 경우, 마크다운을 지원하는 추가적인 외부 도구를 활용해 변환 정확성을 높일 수 있습니다.
  • 실험적 접근: 만약 특정 셀이나 데이터가 LLM에서 정확히 인식되지 않는다면 데이터의 위치나 형태를 조금씩 바꿔가며 테스트해보는 것도 방법입니다.

관련 질문 사례로 R.A.G를 통한 구현의 Scope 문의를 참고하시면, 데이터의 구조적 접근을 위해 표와 마크다운을 어떻게 다룰지에 대한 힌트를 얻으실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.

현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

소득세법 docx 파일 공유 요청건

0

60

1

EXAONE 모델 불러오기 안되는 문제

0

84

2

[5.1 강의] LLM Evaluator에 Upstage를 사용하는 방법 + 변경된 Langsmith Docs를 참고하여 구현하는 방법 공유

0

100

2

강의 9에 QA관련된 import가 되지 않네요

0

107

2

🚨 python3.14 를 쓰고 계시면 chroma 에서 ConfigError 가 발생합니다.

1

192

1

강의와 책 관련 질문

0

84

1

문서 전처리 고민

0

106

1

RAG 배포 질문드립니다

0

92

1

강의 내용과는 별개로 궁금한 점이 있습니다

0

86

2

폐쇄망 챗봇 모델

0

88

1

AI agent 쿠폰

0

93

2

저는 왜 그대로 했는데 답변이 틀리게 나오는지 모르겠네요

0

98

2

langchain howto/sequence는 지금 doc 공식 사이트 어디서 확인할 수 있나요?

1

91

1

new_question에 대한 답 출력

0

71

2

랭체인 라이브러리

0

143

2

[LangGraph를 활용한 AI Agent 개발] 쿠폰 유효기간

0

104

1

postgresql의 pgvector 벡터는 어떤가요?

0

335

2

doc관련

0

126

2

load_dotenv() 실행 False

0

93

1

RAG 답변 개선을 위한 정답지 활용 구조 검토 요청

0

117

2

3.2 from langchain.chains ~ 에서 모듈을 찾지 못할 때.

1

395

2

강의 완료 오류

0

87

1

hub.pull 이슈

0

128

2

[3.3 강의] Upstage를 사용한 RAG 구현 성공기 공유

1

147

1