LLM 파인튜닝 데이터셋 질문

Question

안녕하세요 데이터셋부터 생성 후 파인튜닝 하려고 합니다. 제가 가진 데이터는 텍스트 (word) 파일인데 이를 데이터셋으로 변경을 어떻게 하면 될까요? 강의에서는 이미 만들어져있는 데이터셋 가지고 실습하는거라 처음에 데이터셋은 어떻게 생성할 지를 모르겠습니다. 강의에 나와있는 데이터처럼 answer_start, id 이런 값들도 필요한 건가요? 데이터셋 생성하는 예시 코드를 받을 수 있을까요?

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. juhee.kang님, 질문해주셔서 감사합니다. 텍스트 파일을 기반으로 데이터셋을 생성하시려면, 우선 텍스트 데이터를 적절한 형식의 구조로 변환하는 작업이 필요합니다. 일반적으로 파인튜닝에 활용되는 데이터셋은 JSON 혹은 CSV 형식을 사용합니다. 파인튜닝을 위한 데이터셋에서 answer_start, id 등의 값이 필요한지는 파인튜닝하고자 하는 모델과 수행하고자 하는 태스크에 따라 다릅니다. 예를 들어 질문 답변 태스크를 수행하는 경우에는 이러한 정보가 필요할 수 있습니다. 데이터셋 생성에 관한 예시 코드는 강의 자료에 포함되어 있지 않을 수 있으므로, 인프런의 다른 강의 내용을 참고하시거나 인프런 홈페이지에 문의를 해 보시는 것이 좋습니다. 다음과 같은 과정을 거쳐 데이터셋을 생성해볼 수 있습니다: 1. 텍스트 데이터를 파이썬을 사용하여 불러옵니다. 2. 데이터를 파인튜닝에 적합한 형태로 가공합니다. (예: JSON 형식으로 변환) 3. 필요한 메타데이터(id, question, context 등)를 추가합니다. 4. 데이터셋을 저장합니다. 구체적인 강의 자료가 필요하시면 인프런의 입문강의 추천 기능을 활용하시거나 인프런 지니가 추천해주는 강의를 찾아보시는 것이 좋습니다. 또한, 문제 해결에 대한 구체적인 도움이 필요하실 경우, 인프런 FAQ 페이지를 참고하시거나 인프런 홈페이지의 문의하기 버튼을 통해 직접 문의해 보시길 바랍니다. 도움이 되었길 바라며, 추가적으로 궁금하신 점이 있으시면 언제든 문의해주세요.