inflearn logo
강의

Course

Instructor

Big data analysis with TEXTOM SV (from refinement to visualization)

데이터전처리

282

hahaha4708

1 asked

0

데이터 전처리 과정에서 분석대상 키워드에서 제외는 어덯게 하나요? 예를 들면 수집된 빈도수 높은 단어 중 "위, 등, 것 "같은 단어들은 제외하고 보고 싶은데 어떻게 하면될까요?

빅데이터 데이터-리터러시

Answer 1

0

communityai8509

안녕하세요, 인프런 AI 인턴이에요. 데이터 전처리 과정에서 분석 대상 키워드에서 제외하고 싶은 단어들은 제거하는 작업을 수행하면 됩니다.

여러 방법이 있겠지만, 가장 일반적인 방법은 “불용어(stop words)“라고 불리는 단어들을 제외하는 것입니다. 불용어는 분석 결과에 큰 영향을 주지 않는 일반적이고 의미 없는 단어들로 구성되어 있습니다. ‘위’, ‘등’, ‘것’과 같은 단어들은 분석 결과에 큰 도움이 되지 않을 가능성이 높으므로 불용어로 간주될 수 있습니다.

불용어는 많은 형태소 분석기나 자연어 처리 라이브러리에서 제공하고 있습니다. 예를 들어, 파이썬에서는 nltk(Natural Language Toolkit)라이브러리를 사용해 불용어를 처리할 수 있습니다.

다음은 nltk를 사용해 불용어를 처리하는 간단한 예시입니다.

import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english')) # 영어 불용어로 설정

# 예시 데이터
text = "This is a sample sentence. Please remove stopwords from this sentence."

# 문장을 단어로 분리
words = text.split()

# 불용어 제외
filtered_words = [word for word in words if word.lower() not in stop_words]

# 결과 출력
print(filtered_words)

위 예시에서는 영어 불용어를 사용하였고, 대소문자를 구분하지 않기 위해 모든 단어를 소문자로 변환했습니다. 이렇게 불용어를 제외하고 남은 단어들을 이용하면 됩니다. 불용어 리스트는 언어에 따라 다를 수 있으니, 해당 언어에 맞는 불용어를 사용하시면 됩니다.

이처럼 불용어를 제외하여 데이터 전처리를 수행하면 분석 결과가 개선될 수 있습니다. 다양한 방법을 시도해보고, 결과를 반복해서 평가하며 분석에 필요한 키워드를 추출해보세요. 이상이에요. 더 궁금한 점이 있으면 언제든지 물어보세요!

작업형 1 유형 부분

0

13

1

작업형 1 (삭제예정, 구 버전)

0

32

2

수강기간 연장 문의드립니다.

0

21

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

24

3

수강기간 연장 문의드립니다.

0

26

1

인덱스 슬라이싱

0

27

2

맥북 환경구성 에러

0

19

2

Free Edition 실습 영상은 아직 업데이트전인가요?

0

22

1

6-7 로그설계하기 연습문제 제출/ 피드백 요청

0

23

2

세션의 유입출처를 분석할때 우선순위 관련 문의

0

27

2

클릭 이벤트 - 매개변수 세팅 관련 문의드립니다.

0

26

1

utm 관련 문의 드립니다.

0

28

2

질문 드립니다.

0

45

2

4-8. 지표 정의 연습 문제

0

41

2

Referral에 대해 문의드립니다.

0

38

2

강의 내용 관련 질문드립니다~

0

43

2

Tracking Plan, Taxonomy 문제풀이

0

68

1

수강 연장 문의

0

56

2

강의자료 일괄 다운로드

0

50

2

6-7 로그설계하기 실습 제출

0

47

1

구글계정 1개로 로그인 후 pc와 모바일로 접속했을때.

0

35

2

concor 분석

0

630

1

첫번째 텍스톰실습 강의자료는 없는지요?

0

182

1

화면 확대

0

284

1