inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

[3/4] CountVectorizer로 텍스트 데이터 벡터화

질문입니다.!

214

류성관

작성한 질문수 3

1

:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline

# 튜토리얼과 다르게 파라메터 값을 수정
# 파라메터 값만 수정해도 캐글 스코어 차이가 많이 남
vectorizer = CountVectorizer(analyzer = 'word', 
                             tokenizer = None,
                             preprocessor = None, 
                             stop_words = None, 
                             min_df = 2, # 토큰이 나타날 최소 문서 개수
                             ngram_range=(1, 3),
                             max_features = 20000
                            )
vectorizer


여기서 토큰이 나타날 최소 문서갯수가 정확하게 무슨의미인가요..?와닿지가 않아서..

python NLP

답변 1

0

박조은

안녕하세요.

전체 문서에서 단어가 너무 적게 등장한다면 의미가 크게 없을 수도 있습니다.

예를 들어 오타가 나거나 희귀한 단어가 여기에 해당이 될텐데요.

그래서 전체 문서에서 단어가 2개 이상의 문서에서 등장을 해야지 토큰으로 사용하겠다는 의미입니다.

토큰을 만들 때 "ㅋㅋㅋ"혹은 "ㅋㅋㅋㅋ" 라는 두 개의 단어가 있다고 하면 두 개의 단어는 같은 단어이지만 길이가 다르기 때문에 다른 단어로 인식합니다. 그래서 "ㅋㅋㅋ"는 전체 문서에서 2번 이상 등장하지만 "ㅋㅋㅋㅋ"는 한 번만 등장한다면 문서에서 제외하게 됩니다.

좋은질문 감사합니다 :)

word2vec 질문

0

305

1

질문 드립니다

0

326

1

%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4)

0

329

2

한국어 텍스트 분석과 영어 텍스트 분석의 차이

0

551

1

코랩 실습 링크 파일 다시 올려주시면 안되나요?

0

465

1

강의 자료는 어디서 받을 수 있나요?

0

350

1

data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?

1

719

4

젠심

1

386

1

질문드립니다

1

232

1

질문드립ㄴ디ㅏ

1

409

3

질문드립니다

1

335

2

word2vec 실행 오류

1

382

1

gensim 4.0 버전 문제

1

2173

1

멀티 프로세싱 오류 질문입니다

1

1099

1

1-2 NLP 텍스트 데이터 처리 오류 관련 질문드립니다.

1

352

1

1강 질문드립니다.

1

235

1

질문드립니다.

1

428

2

질문드립니다.

1

210

1

id 말고 어떤 영화인지는 어떻게 알수있을까요?

1

281

1

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

1

481

1

has no attribute 'syn0'

2

324

1

영상 "섹션1. [2/4] NLP 텍스트 데이터 전처리" 부분에 대해 질문 있습니다!

1

311

5

wget 오류

1

781

1

html5lib 과 lxml 에서 모두 에러가 발생하고 있습니다.

1

528

1