원하지 않는 키워드가 들어간 내용들이 추출되었을 때, 어떻게 해결하나요?

Question

안녕하세요, 텍스톰을 활용하여 데이터마이닝 연습중입니다. 데이터 수집 채널이 카페 게시글이라 원하지 않는 키워드가 들어간 게시글이 포함되는 경우가 있습니다. 예를들면, 식생활 관련 키워드를 넣었는데, 원문 데이터를 보니 "하나님이 낫게 해 주셨습니다..."와 같이 맥락에 맞지 않는 내용들도 포함되어 데이터가 분석된 것이 확인되었습니다. 이런 경우 어떻게 해결할 수 있을까요?

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. JieunSo님, 텍스트 데이터마이닝 시 원하지 않는 키워드가 포함된 데이터의 문제를 해결하고자 하실 때 몇 가지 방법을 시도해보실 수 있습니다. 키워드 필터링 강화: 원하지 않는 키워드를 제외하는 필터를 만들어 데이터 수집 단계에서 제외합니다. 맥락에 맞지 않는 단어나 표현들을 미리 정의해 두어 필터링에 활용할 수 있습니다. 데이터 전처리: 수집된 데이터를 전처리하는 과정에서 특정 단어나 표현이 포함된 문장이나 게시글을 제거하거나 수정합니다. 정규 표현식(Regex)을 사용하여 원하지 않는 패턴을 찾아내고 이를 처리할 수 있습니다. 자연어 처리 기술 활용: 문맥 분석이 가능한 자연어 처리(NLP) 기술을 사용하여 데이터의 맥락을 이해하고 주제와 맞지 않는 데이터를 걸러냅니다. 예를 들어, 토픽 모델링이나 감성 분석 등을 활용할 수 있습니다. 수동 검토 및 수정: 자동화된 방법으로 처리하기 어려운 데이터에 대해서는 수동으로 검토하고 수정하는 작업이 필요할 수 있습니다. 데이터마이닝 연습에 좋은 결과가 있으시길 바랍니다. 추가적인 질문이 있으시면 언제든 문의해 주세요.