inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Mô hình ngôn ngữ lớn cho mọi người LLM (Mô hình ngôn ngữ lớn) Phần 1 - Dùng thử Tinh chỉnh Llama 2

Làm sạch bộ dữ liệu KorQuad để phục vụ cho việc Fine-Tuning GPT-3.5

소량의 fineTuning 이 미치는 영향

239

Alex

69 câu hỏi đã được viết

0

주어진 메세지를 학습할 때 20 개의 데이터를 학습시키는데 이미 엄청난 양의 데이터가 학습이 되어 있는데 이런 자아(system)이 반영될 수 있는건가요?

딥러닝 pytorch chatgpt llm llama

Câu trả lời 2

0

AISchool

안녕하세요~. 반갑습니다.

말씀해주신대로 fine-tuning 데이터를 20개만 사용할 경우 데이터가 부족한 상황으로 간주할 수 있습니다. 해당 예제는 빠른 진행을 위해서 최소한의 데이터로 fine-tuning을 진행한 것입니다.

 

일반적으로 권장하는 fine-tuning 데이터셋의 개수는 최소 몇백개 이상입니다.

 

다만 fine-tuning이라는게 수학공식처럼 이런 상황에서는 이렇게된다 이렇게 딱 정해진게 아니기 때문에 데이터 도메인이나 데이터 품질이 어떻느냐에 따라서 적절한 fine-tuning 데이터셋 개수는 상황에 따라 달라질 수 있습니다.

 

좋은 하루되세요.

감사합니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. Alex님.

질문해주신 내용은 소량의 데이터로 언어 모델(특히 대규모 언어 모델)을 파인튜닝할 때 어떤 영향이 있는가에 대한 것입니다. 대규모 언어 모델은 이미 방대한 양의 데이터로 사전 훈련(Pre-training)되어 있어서 기본적인 상식과 여러 일반적 패턴을 포함하고 있습니다. 그러나, 소량의 데이터를 이용해 파인튜닝할 때에는 특정한 주제나 방식으로 모델을 미세하게 조정하게 됩니다.

모델이 소량의 데이터로 파인튜닝될 때, 그 데이터를 기반으로 특정한 패턴이나 정보를 강조할 수 있지만 전체 모델의 ‘자아’를 바꾼다기보다는 주어진 입력에 대한 특정한 반응을 조정하는 것이라고 볼 수 있습니다. 이는 이미 대량의 학습 데이터로 얻은 정보를 잊히게 하거나 그 위에 새로운 특정 정보를 덧붙이는 형태가 될 수 있습니다.

소량의 데이터가 충분히 특이한 정보를 포함하지 않거나 파인튜닝 과정에서 더 큰 맥락을 잃어버린다면, 가끔 “Catastrophic Forgetting”이라 불리는 문제가 생겨 기존에 학습된 정보가 제대로 활용되지 않거나 잊혀질 수 있습니다.

더 많은 정보를 위해 다음과 같은 관련 질문을 참고하시면 좋을 것 같습니다:

모델 파인튜닝의 함정을 피하고자 할 때에는 데이터의 수와 종류가 모델에 미칠 영향 등을 잘 고려해야 합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

LLM 기반 문서 유사도 산출 가능성 관련 문의드립니다

0

118

1

『6. LLM 용어 정리 - 인컨텍스트 러닝(In-context learning)』에 대한 문의

0

396

2

trainer.train() 실행했는데 API key를 입력하라고 합니다. ㅠ

0

137

2

open api 이용 방법

0

184

2

Llama vision 이미지 해상도

0

211

1

API 특정 짓는 법

0

139

2

파인튜닝모델에게 일반적인 질문 할 경우에 대한 궁금증

0

221

2

모델에 대한 성능평가 방법

0

242

1

데이터셋을 파인튜닝 하는 것과 반대로 필요없는 데이터를 제거하는 방법도 있나요?

0

301

2

Lora 기법 질문

0

167

1

소스코드 다운받을 장소를 알려 주셔요.

0

146

1

섹션 20~23 강의자료가 없습니다.

0

136

1

학습시 API Key를 입력하라고 합니다.

0

951

2

OpenAI Assistants tools 중 retrieval 기능

0

137

0

OpenAI Assistants API 기초 예제 중 client.beta.threads.message.list 함수

0

130

1

Fine Tuning 후 inference 하는 예시(코드) 질문

0

242

1

PEFT_P-Tuning semantic similarity 예제 실행 오류

0

298

4

강사님 Step-back 학습자료가 없습니다.

0

159

2

학습 중지 후 재학습 방법(autotrain 최신 버전)

0

278

1

Fine-tuning 데이터셋 질문

0

292

1

Llama3 response 시간

0

493

2

fine-tuning 완료된 모델 관련 질문

0

224

2

llama 3 파인튜닝 관련 문의 사항

0

640

1

checkpoint 파일이 안생겨요

0

356

2