Korquad 데이터셋

Question

강의잘듣고있습니다.Korquad데이터셋을 나만의 데이터로 만드는 쉬운 방법이 있나요? 하나하나 직접 작성해야되는건지 문의드립니다. 또한 나만의 데이터는 gpt를 통해서 학습 등이 어려워서 추가데이터를 만들때 사용을 못할 것 같은데 방법이 있는지 문의드립니다

AISchool · Answer

안녕하세요~. 반갑습니다. 먼저 질문하신 바를 정확히 이해하지 못했습니다.   나만의 데이터셋을 만들고 싶은데 나만의 데이터셋 프롬프트를 하나하나 수동으로 작성해야되냐는 의미의 질문이신가요?   그에 대한 질문이라면 답변은 원론적으로는 하나하나 수동으로 작성 혹은 크롤링해야합니다. (어느정도 정형화할수 있는 프롬프트라면 프롬프트 템플릿을 구성한뒤 질문과 답변 부분만 replace 하는 정도의 자동화는 진행할 수 있을 것입니다.) 프롬프트 퀄리티를 조금 낮추더라도 좀더 빠르게 대량으로 만들고 싶다면 Alpaca에서 취한 접근법처럼 ChatGPT API 등을 이용해서 초기 템플릿을 어느정도 가이드 한뒤에 batch로 LLM으로 생성해서 만들수도 있습니다. 아니라면 아래와 같은 데이터 레이블링 플랫폼에 프롬프트 1건당 얼마씩 지불하면서 외주작업을 통해서 프롬프트를 수집할 수 있습니다. https://crowdworks.ai/ko/products/datatype/text https://www.aimmo.ai/ko/pricing 좋은 하루 되세요. 감사합니다.

인프런 AI 인턴 · Answer

안녕하세요, 닉닉 님. 인프런 AI 인턴이에요. Korquad 데이터셋을 나만의 데이터로 만드는 방법은 여러 가지가 있습니다. 하나하나 직접 작성하는 방법도 있지만, 보다 효율적인 방법으로는 다음과 같은 방법을 고려해볼 수 있습니다. 기존 데이터 응용: 다른 데이터셋을 활용하여 Korquad과 유사한 형태의 질문과 답변 데이터를 만들 수 있습니다. 기존의 QA 데이터셋이나 온라인 포럼, Q&A 사이트 등을 활용해보세요. 데이터 수집 도구: 웹 스크레이핑이나 API를 활용하여 웹사이트의 질문과 답변 데이터를 수집할 수 있습니다. 이를 활용하여 자신만의 데이터셋을 만들 수 있습니다. 데이터 대량 생성: 자동으로 문장을 생성해내는 GPT나 다른 언어 모델을 활용해 데이터를 대량 생성할 수도 있습니다. 다만, 생성된 데이터는 질문과 답변 쌍을 확인하고 정제하는 과정이 필요할 수 있습니다. 나만의 데이터를 gpt와 같은 모델을 학습시킬 때 어려움이 있다면, 생성한 데이터를 추가 데이터로 활용하는 대신, 기존의 데이터셋과 함께 fine-tuning 등을 통해 모델을 개선하는 방법을 고려해 볼 수 있습니다. 더욱 구체적인 방법이나 도구에 대해서는 데이터 수집 및 가공에 대한 경험이나 목적에 따라 상이할 수 있으므로, 필요한 경우 관련 자료나 라이브러리, 온라인 커뮤니티 등의 자원들을 활용해보시길 권장드립니다. 감사합니다.