미해결
[개정판] 파이썬 머신러닝 완벽 가이드
텍스트 분석 (텍스트 분류) 관련해서 일반적인 질문드립니다.
안녕하세요?
강의 잘 수강하고 있습니다.
다름이 아니라 제가 진행하고자 하는 프로젝트가 트워터에서 트윗을 다운 받아 분류하는 작업을 하려고 하는 데요.
Supervised method으로 모델을 트레이닝 시키는 방법을 고려하고 있습니다.
혹시 전체 데이터 중 몇 퍼센트 정도를 사람이 직접 분류시켜서 training set 및 testing set에 적용하는 것이 일반적인 룰? 인지 궁금해서 문의 드립니다. 제가 인터넷에서 찾아본 바로는 80% 트레이닝 20% 테스팅 또는 70% 트레이닝 30% 테스팅을 많이 본 것 같습니다.
또 사람이 직접 분류 시켜서 labeling하는 데이터 포인트가 많으면 많을 수록 좋다고 생각이 드는 데 일반적으로 머신러닝하시는 분들은 어떻게 결정하시는 지 궁금하네요.
예를 들어 다음과 같은 경우 강사님께서는 어떻게 분류를 하실 지 의견을 여쭙고 싶습니다.
만약 전체 1,000,000 트윗을 가지고 있고 이를 5가지 카테고리로 분류하고 싶다. 한가지 방법은 이중 10% (100,000 트윗) 정도를 임의로 추출해서 이중 80% (80,000 트윗)를 사람들이 직접 분류하게 하고 나머지 20% (20,000 트윗)으로 테스팅을 한다. 그리고 전체 1,000,000 트윗 중 나머지 90% (900,000 트윗)을 트레이닝 시킨 모델로 분류 시킨다.
혹시 강사님께서는 위의 경우 어떻게 퍼센티지를 구분하실 지 여쭙고 싶습니다.
감사합니다.