코드 해석 문의
219
작성한 질문수 6
안녕하세요. 강의 너무 잘 듣고 있습니다.
아래 코드가 대충 어떤 의미인지는 이해가 가는데 정확히 알고 싶어서요. 아래 코드 해석 좀 해주실 수 있을까요?
# 5. Stopwords 불용어 제거 meaningful_words = [w for w in words if not w in stops] # 6. 어간추출 stemming_words = [stemmer.stem(w) for w in meaningful_words]
답변 1
0
안녕하세요.
5번 불용어제거는 "나, 너, 그리고, 나는, 너는 ..." 과 같이 자주 등장하는 단어는 stops 에 담아두고 해당 단어가 아닐 때만 다시 리스트 컴프리헨션으로 담는 코드 입니다.
불용어를 제거하는 이유는 불용어는 자주 등장하지만 큰 의미를 갖지 않기 때문에 빈도수만 봤을 때 중요하다 여길 수 있으나 의미가 적기 때문에 제거하는 것이고요.
리스트 컴프리헨션은 다음 링크를 참고해 보시면 좋을거 같아요.
https://dojang.io/mod/page/view.php?id=2285
6. 어간추출은
fly, flying 등 은 날다, 파리, 비행기 등의 의미를 가지는데 형태가 변형되어 있는 것을 원형상태로 만드는 것을 의미해요.
예를 들면 flying 은 fly로 만드는데 stemer도 종류가 여러가지에요. nltk 에서도 스노우볼스테머, 랭카스터 스테머 등 다양한 스테머를 제공하는데 스테머에 따라 원형을 추출을 다르게 해요. 예를 들어 movie => movi 로 추출하기도 하는데 원형을 꼭 유지하지 않지만 변형된 단어를 같은 형태로 만들어 줍니다.
stemming 외에도 lemmatizing이 있는데 lemmatizing 은 원형을 보존하게 됩니다.
이 부분이 좀 더 궁금하다면 다음 링크를 읽어보시면 좋을거 같아요.
https://ko.wikipedia.org/wiki/%EC%96%B4%EA%B0%84_%EC%B6%94%EC%B6%9C
word2vec 질문
0
306
1
질문 드립니다
0
326
1
%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4)
0
329
2
한국어 텍스트 분석과 영어 텍스트 분석의 차이
0
551
1
코랩 실습 링크 파일 다시 올려주시면 안되나요?
0
465
1
강의 자료는 어디서 받을 수 있나요?
0
350
1
data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?
1
719
4
젠심
1
386
1
질문드립니다
1
232
1
질문드립ㄴ디ㅏ
1
409
3
질문드립니다
1
335
2
word2vec 실행 오류
1
382
1
gensim 4.0 버전 문제
1
2173
1
멀티 프로세싱 오류 질문입니다
1
1099
1
1-2 NLP 텍스트 데이터 처리 오류 관련 질문드립니다.
1
352
1
1강 질문드립니다.
1
235
1
질문드립니다.
1
428
2
질문드립니다.
1
210
1
id 말고 어떤 영화인지는 어떻게 알수있을까요?
1
281
1
[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
1
481
1
has no attribute 'syn0'
2
324
1
영상 "섹션1. [2/4] NLP 텍스트 데이터 전처리" 부분에 대해 질문 있습니다!
1
311
5
wget 오류
1
781
1
html5lib 과 lxml 에서 모두 에러가 발생하고 있습니다.
1
529
1





