[2/4] NLP 텍스트 데이터 전처리

소스코드 : https://github.com/corazzon/KaggleStruggle/blob/master/word2vec-nlp-tutorial/tutorial-part-1.ipynb

 

# text preprocessing

 

BOW(bag of words)로 캐글 IMDB 영화 리뷰 데이터를  전처리합니다.

 

이번 튜토리얼에서는 

1. BeautifulSoup(뷰티풀숩)을 통해 HTML 태그를 제거합니다.

2. 정규표현식으로 알파벳 이외의 문자를 공백으로 치환합니다.

3. NLTK 데이터를 사용해 불용어(Stopword)를 제거해 줍니다.

4. 어간추출(스테밍 Stemming)과 음소표기법(Lemmatizing)의 개념을 이해하고 SnowballStemmer를 통해 어간을 추출합니다.

 

# 파이썬 데이터 시각화

전처리한 데이터로 워드클라우드를 그려보고 seaborn을 사용해 각 리뷰에 단어가 몇개씩 등장하는지 시각화 해봅니다.