LLM 파인튜닝 데이터셋 질문
1462
작성한 질문수 2
안녕하세요
데이터셋부터 생성 후 파인튜닝 하려고 합니다.
제가 가진 데이터는 텍스트 (word) 파일인데 이를 데이터셋으로 변경을 어떻게 하면 될까요?
강의에서는 이미 만들어져있는 데이터셋 가지고 실습하는거라 처음에 데이터셋은 어떻게 생성할 지를 모르겠습니다.
강의에 나와있는 데이터처럼 answer_start, id 이런 값들도 필요한 건가요?
데이터셋 생성하는 예시 코드를 받을 수 있을까요?
답변 1
0
안녕하세요, 인프런 AI 인턴입니다.
juhee.kang님, 질문해주셔서 감사합니다.
텍스트 파일을 기반으로 데이터셋을 생성하시려면, 우선 텍스트 데이터를 적절한 형식의 구조로 변환하는 작업이 필요합니다. 일반적으로 파인튜닝에 활용되는 데이터셋은 JSON 혹은 CSV 형식을 사용합니다. 파인튜닝을 위한 데이터셋에서 answer_start, id 등의 값이 필요한지는 파인튜닝하고자 하는 모델과 수행하고자 하는 태스크에 따라 다릅니다. 예를 들어 질문 답변 태스크를 수행하는 경우에는 이러한 정보가 필요할 수 있습니다.
데이터셋 생성에 관한 예시 코드는 강의 자료에 포함되어 있지 않을 수 있으므로, 인프런의 다른 강의 내용을 참고하시거나 인프런 홈페이지에 문의를 해 보시는 것이 좋습니다.
다음과 같은 과정을 거쳐 데이터셋을 생성해볼 수 있습니다:
1. 텍스트 데이터를 파이썬을 사용하여 불러옵니다.
2. 데이터를 파인튜닝에 적합한 형태로 가공합니다. (예: JSON 형식으로 변환)
3. 필요한 메타데이터(id, question, context 등)를 추가합니다.
4. 데이터셋을 저장합니다.
구체적인 강의 자료가 필요하시면 인프런의 입문강의 추천 기능을 활용하시거나 인프런 지니가 추천해주는 강의를 찾아보시는 것이 좋습니다. 또한, 문제 해결에 대한 구체적인 도움이 필요하실 경우, 인프런 FAQ 페이지를 참고하시거나 인프런 홈페이지의 문의하기 버튼을 통해 직접 문의해 보시길 바랍니다.
도움이 되었길 바라며, 추가적으로 궁금하신 점이 있으시면 언제든 문의해주세요.
섹션22 퀴즈 질문
0
30
1
LLM 기반 문서 유사도 산출 가능성 관련 문의드립니다
0
124
1
『6. LLM 용어 정리 - 인컨텍스트 러닝(In-context learning)』에 대한 문의
0
416
2
trainer.train() 실행했는데 API key를 입력하라고 합니다. ㅠ
0
142
2
open api 이용 방법
0
185
2
Llama vision 이미지 해상도
0
215
1
API 특정 짓는 법
0
142
2
소량의 fineTuning 이 미치는 영향
0
241
2
파인튜닝모델에게 일반적인 질문 할 경우에 대한 궁금증
0
223
2
모델에 대한 성능평가 방법
0
243
1
데이터셋을 파인튜닝 하는 것과 반대로 필요없는 데이터를 제거하는 방법도 있나요?
0
303
2
Lora 기법 질문
0
173
1
소스코드 다운받을 장소를 알려 주셔요.
0
150
1
섹션 20~23 강의자료가 없습니다.
0
139
1
학습시 API Key를 입력하라고 합니다.
0
962
2
OpenAI Assistants tools 중 retrieval 기능
0
140
0
OpenAI Assistants API 기초 예제 중 client.beta.threads.message.list 함수
0
135
1
Fine Tuning 후 inference 하는 예시(코드) 질문
0
245
1
PEFT_P-Tuning semantic similarity 예제 실행 오류
0
302
4
강사님 Step-back 학습자료가 없습니다.
0
163
2
학습 중지 후 재학습 방법(autotrain 최신 버전)
0
280
1
Fine-tuning 데이터셋 질문
0
301
1
Llama3 response 시간
0
499
2
fine-tuning 완료된 모델 관련 질문
0
229
2





