강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của hello1232123
hello1232123

câu hỏi đã được viết

Phát triển ứng dụng LLM sử dụng RAG (feat. LangChain)

1.1 Mục đích của khóa học qua kết quả chúng ta sẽ tạo ra

문서 전처리 고민

Viết

·

61

0

안녕하세요, 개인 프로젝트로 rag 기반 챗봇을 구현하고 있습니다. ollama, gemma3:1b를 사용중입니다. txt 파일을 어느정도 전처리를 하고 임베딩을 시키려고 하는데 전처리 중 고민이 있습니다.

구조가 잡혀있는 txt 파일인데, 문서 구조는 대략 아래와 같은 형태입니다.

1.2 화면 설명
1.2.1 개요
- 이 화면은 사용자가 업무를 처리하기 위한 화면입니다.

1.2.2 화면 위치
상단 메뉴 > 업무 관리 > 처리 화면

1.2.3 처리 절차
1) 항목 선택
2) 저장 버튼 클릭

현재 고민되는 부분은 다음과 같습니다.

  1. 이런 번호 기반 구조를 그대로 유지한 채로 chunking 하는 것이 좋은지,
    아니면 번호는 제거하고 의미 단위로만 분할하는 것이 나은지

  2. -, , 숫자 목록 같은 불릿/목록 기호를 임베딩 전에 제거하거나 정규화하는 게 좋은지

  3. “개요 / 처리 절차 / 화면 위치” 같은 섹션 제목을 chunk 본문에 포함시키는 것이 검색 품질에 도움이 되는지



    감사합니다.

vector-databasellmlangchainragopenai-api

Câu trả lời 1

0

jasonkang님의 프로필 이미지
jasonkang
Người chia sẻ kiến thức

안녕하세요, 좋은 질문 감사합니다. RAG의 핵심은 데이터를 어떻게 잘 전달하느냐 인데요, 질문하신 내용에 답변을 드려보자면

  1. 마크다운 형식으로 간다면 유지하는 편이 좋습니다. 1.2 , 1.2.1 과 같은 구분이 문서의 형식을 나타내기 때문에 남겨두는 편이 좋습니다. 아래처럼 수정해주시면 더 좋습니다

## 1.2 화면 설명
### 1.2.1 개요
- 이 화면은 사용자가 업무를 처리하기 위한 화면입니다.

### 1.2.2 화면 위치
상단 메뉴 > 업무 관리 > 처리 화면

### 1.2.3 처리 절차
1) 항목 선택
2) 저장 버튼 클릭

그리고 이런식으로 가능하시다면 더 좋습니다

## 1.2 화면 설명
### 1.2.1 개요
- 이 화면은 사용자가 업무를 처리하기 위한 화면입니다.

## 1.2 화면 설명
### 1.2.2 화면 위치
상단 메뉴 > 업무 관리 > 처리 화면

## 1.2 화면 설명
### 1.2.3 처리 절차
1) 항목 선택
2) 저장 버튼 클릭

1.2.2와 1.2.3에 1.2의 내용을 넣어주면서, 어떤 화면에 대한 내용인지를 부연설명해서 더 좋은 context를 전달할 수 있습니다.

  1. - 와 같은 기호는 남겨두는 편이 좋습니다. 일반 줄글로는 텍스트들의 관계를 쉽게 파악할 수 없기 때문입니다.

상단 메뉴 > 업무 관리 > 처리 화면

의 경우에는 처리 순서의 depth를 확인할 수 있지만

상단 메뉴  업무 관리  처리 화면

이렇게 보면 어떤 관계가 있는지 알 수 없기 때문입니다

  1. 1, 2 번에서 답변이 되었을 것 같은데요, 추가하시는 방향을 추천 드립니다

Hình ảnh hồ sơ của hello1232123
hello1232123

câu hỏi đã được viết

Đặt câu hỏi