데이터 전처리 관련 질문드립니다.
242
10 asked
안녕하세요 선생님
데이터 전처리 과정에서 힘든점이 있어 한가지 여쭙고 싶어 질문드립니다.
텍스트 마이닝의 경우 원본(예를 들어 리뷰 등) 데이터가 많게는 몇천건에서 수만건, 수십만건 까지 자료를 수집해서 분석할 수 있는데 한글의 경우 okt 분석기로 형태소 분석을 하고 나면 여전히 제대로 단어가 분리되지 않아 단어 정제, 불용어 제거, 단어 정규화 과정을 계속 거쳐야 하잖아요..
그런데 원본 리뷰 데이터가 수천, 수만건일 경우 수천 수만건을 개인이 일일이 하나씩 봐가면서 전처리 작업을 진행해야 할 것 같은데 이 과정이 너무나 시간이 많이 소요되고 힘든 것 같습니다.
데이터 전처리시 이렇게 하나씩 데이터를 봐가면서 정제작업을 거치는 것이 정상적인 진행과정인지 너무 궁금합니다. ㅠ
질문 읽어주셔서 감사합니다!
Answer 1
0
안녕하세요 데이터 전처리시 모든 데이터를 하나하나씩 봐가면서 전처리를 하면 당연히 데이터 퀄리티가 올라가지만 데이터의 양이 방대할 경우 이렇게 하기가 힘들어서 빈도가 높은 단어순으로 상위 N위까지 전처리 작업을 실행합니다^^
감사합니다.
0
네! 그렇다면 일단 형태소 분석 후 중요단어 빈도수를 먼저 구해서 확인해보고 거기서 부터 단어 정제작업을 한번 더 시행하면 되겠네요.
답변 주셔서 정말 감사드립니다!
심화 강의 개설 여부
0
47
1
48강의 오디오가 나오지 않아요.
0
47
1
혼란도에 대해서 질문드립니다.
0
88
2
구글코랩 실행이 안되서요
0
163
2
질문드립니다.
0
163
2
Ucinet 활용한 CONCOR 데이터 추출이 안 돼요
0
388
3
pyLDAvis 오류
0
207
2
BERTopic에 대해서 질문드립니다.
0
263
2
TF-IDF값에 대해서 질문드립니다.
0
240
3
수업 자료 관련
0
231
3
원하는 결과를 얻기 위한 데이터 전처리 관련
0
230
1
LDA 분석시 빈출 키워드 관련 질문드립니다.
0
192
1
LDAvis 시각화가 되지 않습니다.
0
335
2
데이터 전처리시
0
259
2
LDAvis 시각화가 안됩니다.
0
269
2
강의 자료
0
184
1
원하는 결과를 얻기위한 데이터 전처리 기법
0
312
1
LDAvis를 이용한 토픽 모델링 시각화 기법
0
496
1
데이터 전처리2 에서 utf-8 저장 시 한글 깨짐
0
317
1
LDAvis 결과 해석법 with ChatGPT- 강의소리
0
196
1
pyLDAvis시각화
0
382
2
불용어 처리 관련 질문드립니다.
0
314
1
워드 클라우드 cloud=wc.fit_words 코드 에러
0
221
1
형태소 분석 및 워드클라우드 질문드립니다.
0
225
1

