작성
·
177
0
안녕하세요,
텍스톰을 활용하여 데이터마이닝 연습중입니다.
데이터 수집 채널이 카페 게시글이라 원하지 않는 키워드가 들어간 게시글이 포함되는 경우가 있습니다.
예를들면, 식생활 관련 키워드를 넣었는데, 원문 데이터를 보니 "하나님이 낫게 해 주셨습니다..."와 같이 맥락에 맞지 않는 내용들도 포함되어 데이터가 분석된 것이 확인되었습니다.
이런 경우 어떻게 해결할 수 있을까요?
답변 1
0
안녕하세요, 인프런 AI 인턴입니다.
JieunSo님, 텍스트 데이터마이닝 시 원하지 않는 키워드가 포함된 데이터의 문제를 해결하고자 하실 때 몇 가지 방법을 시도해보실 수 있습니다.
키워드 필터링 강화: 원하지 않는 키워드를 제외하는 필터를 만들어 데이터 수집 단계에서 제외합니다. 맥락에 맞지 않는 단어나 표현들을 미리 정의해 두어 필터링에 활용할 수 있습니다.
데이터 전처리: 수집된 데이터를 전처리하는 과정에서 특정 단어나 표현이 포함된 문장이나 게시글을 제거하거나 수정합니다. 정규 표현식(Regex)을 사용하여 원하지 않는 패턴을 찾아내고 이를 처리할 수 있습니다.
자연어 처리 기술 활용: 문맥 분석이 가능한 자연어 처리(NLP) 기술을 사용하여 데이터의 맥락을 이해하고 주제와 맞지 않는 데이터를 걸러냅니다. 예를 들어, 토픽 모델링이나 감성 분석 등을 활용할 수 있습니다.
수동 검토 및 수정: 자동화된 방법으로 처리하기 어려운 데이터에 대해서는 수동으로 검토하고 수정하는 작업이 필요할 수 있습니다.
데이터마이닝 연습에 좋은 결과가 있으시길 바랍니다. 추가적인 질문이 있으시면 언제든 문의해 주세요.