inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기

Llama 2 Fine-Tuning 예제 1 - KorQuad 데이터셋에 Fine-Tuning된 Llama 2 예측(Inference) 및 ChatGPT(GPT-4)와 성능 비교

Korquad 데이터셋

420

닉닉

작성한 질문수 3

0

강의잘듣고있습니다.Korquad데이터셋을 나만의 데이터로 만드는 쉬운 방법이 있나요? 하나하나 직접 작성해야되는건지 문의드립니다. 또한 나만의 데이터는 gpt를 통해서 학습 등이 어려워서 추가데이터를 만들때 사용을 못할 것 같은데 방법이 있는지 문의드립니다

딥러닝 pytorch chatgpt llm llama

답변 2

0

AISchool

안녕하세요~. 반갑습니다.

먼저 질문하신 바를 정확히 이해하지 못했습니다.

 

나만의 데이터셋을 만들고 싶은데 나만의 데이터셋 프롬프트를 하나하나 수동으로 작성해야되냐는 의미의 질문이신가요?

 

그에 대한 질문이라면 답변은

  1. 원론적으로는 하나하나 수동으로 작성 혹은 크롤링해야합니다. (어느정도 정형화할수 있는 프롬프트라면 프롬프트 템플릿을 구성한뒤 질문과 답변 부분만 replace 하는 정도의 자동화는 진행할 수 있을 것입니다.)

  2. 프롬프트 퀄리티를 조금 낮추더라도 좀더 빠르게 대량으로 만들고 싶다면 Alpaca에서 취한 접근법처럼 ChatGPT API 등을 이용해서 초기 템플릿을 어느정도 가이드 한뒤에 batch로 LLM으로 생성해서 만들수도 있습니다.

  3. 아니라면 아래와 같은 데이터 레이블링 플랫폼에 프롬프트 1건당 얼마씩 지불하면서 외주작업을 통해서 프롬프트를 수집할 수 있습니다.
    https://crowdworks.ai/ko/products/datatype/text
    https://www.aimmo.ai/ko/pricing

    좋은 하루 되세요.

    감사합니다.

0

인프런 AI 인턴

안녕하세요, 닉닉 님. 인프런 AI 인턴이에요.

Korquad 데이터셋을 나만의 데이터로 만드는 방법은 여러 가지가 있습니다. 하나하나 직접 작성하는 방법도 있지만, 보다 효율적인 방법으로는 다음과 같은 방법을 고려해볼 수 있습니다.

  1. 기존 데이터 응용: 다른 데이터셋을 활용하여 Korquad과 유사한 형태의 질문과 답변 데이터를 만들 수 있습니다. 기존의 QA 데이터셋이나 온라인 포럼, Q&A 사이트 등을 활용해보세요.

  2. 데이터 수집 도구: 웹 스크레이핑이나 API를 활용하여 웹사이트의 질문과 답변 데이터를 수집할 수 있습니다. 이를 활용하여 자신만의 데이터셋을 만들 수 있습니다.

  3. 데이터 대량 생성: 자동으로 문장을 생성해내는 GPT나 다른 언어 모델을 활용해 데이터를 대량 생성할 수도 있습니다. 다만, 생성된 데이터는 질문과 답변 쌍을 확인하고 정제하는 과정이 필요할 수 있습니다.

나만의 데이터를 gpt와 같은 모델을 학습시킬 때 어려움이 있다면, 생성한 데이터를 추가 데이터로 활용하는 대신, 기존의 데이터셋과 함께 fine-tuning 등을 통해 모델을 개선하는 방법을 고려해 볼 수 있습니다.

더욱 구체적인 방법이나 도구에 대해서는 데이터 수집 및 가공에 대한 경험이나 목적에 따라 상이할 수 있으므로, 필요한 경우 관련 자료나 라이브러리, 온라인 커뮤니티 등의 자원들을 활용해보시길 권장드립니다. 감사합니다.

1

닉닉

gpt 답변 인가요?

개인 데이터를 가지고 만드는 방법 및 팁을 문의 드렸습니다(gpt사용하지 않고)

섹션22 퀴즈 질문

0

30

1

LLM 기반 문서 유사도 산출 가능성 관련 문의드립니다

0

124

1

『6. LLM 용어 정리 - 인컨텍스트 러닝(In-context learning)』에 대한 문의

0

416

2

trainer.train() 실행했는데 API key를 입력하라고 합니다. ㅠ

0

142

2

open api 이용 방법

0

185

2

Llama vision 이미지 해상도

0

215

1

API 특정 짓는 법

0

142

2

소량의 fineTuning 이 미치는 영향

0

241

2

파인튜닝모델에게 일반적인 질문 할 경우에 대한 궁금증

0

223

2

모델에 대한 성능평가 방법

0

243

1

데이터셋을 파인튜닝 하는 것과 반대로 필요없는 데이터를 제거하는 방법도 있나요?

0

303

2

Lora 기법 질문

0

173

1

소스코드 다운받을 장소를 알려 주셔요.

0

150

1

섹션 20~23 강의자료가 없습니다.

0

139

1

학습시 API Key를 입력하라고 합니다.

0

962

2

OpenAI Assistants tools 중 retrieval 기능

0

140

0

OpenAI Assistants API 기초 예제 중 client.beta.threads.message.list 함수

0

135

1

Fine Tuning 후 inference 하는 예시(코드) 질문

0

245

1

PEFT_P-Tuning semantic similarity 예제 실행 오류

0

302

4

강사님 Step-back 학습자료가 없습니다.

0

163

2

학습 중지 후 재학습 방법(autotrain 최신 버전)

0

280

1

Fine-tuning 데이터셋 질문

0

301

1

Llama3 response 시간

0

499

2

fine-tuning 완료된 모델 관련 질문

0

229

2