데이터 전처리 관련 질문드립니다.

Question

안녕하세요 선생님 데이터 전처리 과정에서 힘든점이 있어 한가지 여쭙고 싶어 질문드립니다. 텍스트 마이닝의 경우 원본(예를 들어 리뷰 등) 데이터가 많게는 몇천건에서 수만건, 수십만건 까지 자료를 수집해서 분석할 수 있는데 한글의 경우 okt 분석기로 형태소 분석을 하고 나면 여전히 제대로 단어가 분리되지 않아 단어 정제, 불용어 제거, 단어 정규화 과정을 계속 거쳐야 하잖아요.. 그런데 원본 리뷰 데이터가 수천, 수만건일 경우 수천 수만건을 개인이 일일이 하나씩 봐가면서 전처리 작업을 진행해야 할 것 같은데 이 과정이 너무나 시간이 많이 소요되고 힘든 것 같습니다. 데이터 전처리시 이렇게 하나씩 데이터를 봐가면서 정제작업을 거치는 것이 정상적인 진행과정인지 너무 궁금합니다. ㅠ 질문 읽어주셔서 감사합니다!

HappyAI · Answer

안녕하세요 데이터 전처리시 모든 데이터를 하나하나씩 봐가면서 전처리를 하면 당연히 데이터 퀄리티가 올라가지만 데이터의 양이 방대할 경우 이렇게 하기가 힘들어서 빈도가 높은 단어순으로 상위 N위까지 전처리 작업을 실행합니다^^   감사합니다.