텍스트 분석 (텍스트 분류) 관련해서 일반적인 질문드립니다.
170
작성한 질문수 1
답변 1
0
안녕하십니까,
1. 학습 데이터, 테스트 데이터 비율을 얼마로 할지는 정해진 게 없습니다.
꼭 정할 필요도 없습니다. 일반적으로는 비율 보다는 테스트 데이터가 학습데이터, 또는 실제 업무 데이터 상황을 얼마나 잘 반영했는지가 더 중요합니다.
보통은 20% 정도로 테스트 데이터 비율을 설정합니다. 하지만 여러 비율로 테스트 해보면서 테스트 성능이 떨어지지는 않는지 확인해 보는게 중요합니다. 즉 30%, 또는 40% 정도로도 해보고 성능이 변화가 있는지 확인해 보고, 만약 큰 변화가 있으면 학습데이터가 줄어서 그런건지, 아님 테스트 데이터가 학습 데이터와 뭔가 크게 달라서 그런건지 확인을 하는 절차를 가지면 됩니다.
2. 만약 전체 1,000,000 트윗을 가지고 있고 이를 5가지 카테고리로 분류하고 싶다. 한가지 방법은 이중 10% (100,000 트윗) 정도를 임의로 추출해서 이중 80% (80,000 트윗)를 사람들이 직접 분류하게 하고 나머지 20% (20,000 트윗)으로 테스팅을 한다. 그리고 전체 1,000,000 트윗 중 나머지 90% (900,000 트윗)을 트레이닝 시킨 모델로 분류 시킨다.
=> 레이블을 적용한 데이터가 많으면 많을 수록 좋지만, 노동력이 투입되어야 하는 작업이라 비용이 많이 소모 됩니다. 돈과 시간이 된다면 레이블링을 많이 하면 할 수록 좋습니다. 하지만 백만개 트윗을 다 사람이 분류하기에는 많은 자원이 소모 될 것 같습니다. 10%가 십만개인데, 할 수만 있다면 이정도도 충분하다고 봅니다. 다만 십만개 역시 비용이 만만치는 않을 것 같습니다.
십만개든 만개든, 먼저 가능한 비용을 산정해 보고, 몇개를 레이블링 할 수 있는지 정하는게 먼저 일것 같습니다. 가능하면 만개 부터 해서 80% 20% 나누어서 성능을 테스트 해보고 2만개로 늘렸을 때 성능 다시 테스트 해보면서 학습 데이터를 증가 시켰을 때 성능이 어떻게 변하는지 확인해보시고, 학습 데이터 량을 늘려가시면 어떨가 싶습니다.
감사합니다.
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
50
2
안녕하세요 열심히 수강중인 학생입니다
0
86
2
정수 인덱싱
0
86
2
넘파이 오류
0
109
2
11강 numpy의 axis 축 질문 드립니다.
0
106
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
93
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
76
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
83
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
73
2
5강 강의 오류가 있어요.
0
90
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
81
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
75
3
파이썬 다운그레이 후 사이킷런 재설치
0
128
2
좋은 강의 감사합니다.
0
79
2
scoring 함수 음수값
0
72
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
108
2
분류 평가 정확도 예측
0
87
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
114
1
카카오톡 채널 있나요
0
118
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
193
2
pca 스케일링 관련하여 질문드립니다.
0
109
2
주피터 대신 구글 코랩
0
184
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
155
2
실루엣 스코어..
0
91
2





