inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Phát triển ứng dụng LLM sử dụng RAG (feat. LangChain)

1.1 Mục đích của khóa học qua kết quả chúng ta sẽ tạo ra

문서 전처리 고민

111

작성자 없음

0 câu hỏi đã được viết

0

안녕하세요, 개인 프로젝트로 rag 기반 챗봇을 구현하고 있습니다. ollama, gemma3:1b를 사용중입니다. txt 파일을 어느정도 전처리를 하고 임베딩을 시키려고 하는데 전처리 중 고민이 있습니다.

구조가 잡혀있는 txt 파일인데, 문서 구조는 대략 아래와 같은 형태입니다.

1.2 화면 설명
1.2.1 개요
- 이 화면은 사용자가 업무를 처리하기 위한 화면입니다.

1.2.2 화면 위치
상단 메뉴 > 업무 관리 > 처리 화면

1.2.3 처리 절차
1) 항목 선택
2) 저장 버튼 클릭

현재 고민되는 부분은 다음과 같습니다.

  1. 이런 번호 기반 구조를 그대로 유지한 채로 chunking 하는 것이 좋은지,
    아니면 번호는 제거하고 의미 단위로만 분할하는 것이 나은지

  2. -, , 숫자 목록 같은 불릿/목록 기호를 임베딩 전에 제거하거나 정규화하는 게 좋은지

  3. “개요 / 처리 절차 / 화면 위치” 같은 섹션 제목을 chunk 본문에 포함시키는 것이 검색 품질에 도움이 되는지



    감사합니다.

vector-database llm langchain rag openai-api

Câu trả lời 1

0

jasonkang

안녕하세요, 좋은 질문 감사합니다. RAG의 핵심은 데이터를 어떻게 잘 전달하느냐 인데요, 질문하신 내용에 답변을 드려보자면

  1. 마크다운 형식으로 간다면 유지하는 편이 좋습니다. 1.2 , 1.2.1 과 같은 구분이 문서의 형식을 나타내기 때문에 남겨두는 편이 좋습니다. 아래처럼 수정해주시면 더 좋습니다

## 1.2 화면 설명
### 1.2.1 개요
- 이 화면은 사용자가 업무를 처리하기 위한 화면입니다.

### 1.2.2 화면 위치
상단 메뉴 > 업무 관리 > 처리 화면

### 1.2.3 처리 절차
1) 항목 선택
2) 저장 버튼 클릭

그리고 이런식으로 가능하시다면 더 좋습니다

## 1.2 화면 설명
### 1.2.1 개요
- 이 화면은 사용자가 업무를 처리하기 위한 화면입니다.

## 1.2 화면 설명
### 1.2.2 화면 위치
상단 메뉴 > 업무 관리 > 처리 화면

## 1.2 화면 설명
### 1.2.3 처리 절차
1) 항목 선택
2) 저장 버튼 클릭

1.2.2와 1.2.3에 1.2의 내용을 넣어주면서, 어떤 화면에 대한 내용인지를 부연설명해서 더 좋은 context를 전달할 수 있습니다.

  1. - 와 같은 기호는 남겨두는 편이 좋습니다. 일반 줄글로는 텍스트들의 관계를 쉽게 파악할 수 없기 때문입니다.

상단 메뉴 > 업무 관리 > 처리 화면

의 경우에는 처리 순서의 depth를 확인할 수 있지만

상단 메뉴  업무 관리  처리 화면

이렇게 보면 어떤 관계가 있는지 알 수 없기 때문입니다

  1. 1, 2 번에서 답변이 되었을 것 같은데요, 추가하시는 방향을 추천 드립니다

소득세법 docx 파일 공유 요청건

0

65

1

EXAONE 모델 불러오기 안되는 문제

0

89

2

[5.1 강의] LLM Evaluator에 Upstage를 사용하는 방법 + 변경된 Langsmith Docs를 참고하여 구현하는 방법 공유

0

106

2

강의 9에 QA관련된 import가 되지 않네요

0

111

2

🚨 python3.14 를 쓰고 계시면 chroma 에서 ConfigError 가 발생합니다.

1

200

1

강의와 책 관련 질문

0

87

1

RAG 배포 질문드립니다

0

95

1

강의 내용과는 별개로 궁금한 점이 있습니다

0

89

2

폐쇄망 챗봇 모델

0

94

1

AI agent 쿠폰

0

95

2

저는 왜 그대로 했는데 답변이 틀리게 나오는지 모르겠네요

0

102

2

langchain howto/sequence는 지금 doc 공식 사이트 어디서 확인할 수 있나요?

1

95

1

new_question에 대한 답 출력

0

75

2

랭체인 라이브러리

0

148

2

[LangGraph를 활용한 AI Agent 개발] 쿠폰 유효기간

0

107

1

postgresql의 pgvector 벡터는 어떤가요?

0

345

2

doc관련

0

128

2

load_dotenv() 실행 False

0

96

1

RAG 답변 개선을 위한 정답지 활용 구조 검토 요청

0

119

2

3.2 from langchain.chains ~ 에서 모듈을 찾지 못할 때.

1

406

2

강의 완료 오류

0

89

1

hub.pull 이슈

0

131

2

[3.3 강의] Upstage를 사용한 RAG 구현 성공기 공유

1

150

1

RAG 문서 관리 방법

0

107

2