CountVectorizer 파라미터 질문
844
작성한 질문수 6
1. 파라미텅 중 analyzer, tokenizer, preprocessor에 대해서 설명 좀 부탁 드립니다. 구글링해도 명확하게 이해가 안되네요ㅜㅜ
2. 파라미터 중 stop_words가 있더라구요. 앞에도 별도로 불용어 처리 안해주고 여기서 처리해도 되는건가요?
3. max_features 지정할 때 참조할만한 기준이 있나요? min-df와는 연관성이 없나요?
강의 중에 간단하게나마 설명해 주시면 더 감사하겠습니다 ^^;; 저같은 초보들은 구글링하는 데 시간이 꽤 걸러서요ㅜㅜ
답변 1
0
안녕하세요.
질문해 주신 내용을 찾아봤는데 모두 답변을 해드린 것 같은데 혹시 놓친 부분이 있으면 다시 질문해 주세요.
기존해 질문해 주신 내용에 대한 답변은 각 링크에서 확인해 주시면 됩니다.
[인프런 - import 문의](https://www.inflearn.com/questions/28861)
[인프런 - 코드 해석 문의](https://www.inflearn.com/questions/28860)
[인프런 - 기초 질문 드립니다.](https://www.inflearn.com/questions/25642)
CountVectorizer 의 옵션은
* stop_words : 리스트 형태로 불용어로 처리하고자 하는 문자를 넣어주시면 됩니다.
불용어에 대한 내용은 위 링크에 있는 질문에 답변해 드렸습니다.
* analyzer : 문자열 {‘word’, ‘char’, ‘char_wb’} 또는 함수로 어떤 단위로 토큰화 할지를 정의합니다.
* token_pattern : 토큰화 하는 정규표현식 패턴입니다.
* tokenizer : 사이킷런에서 기본으로 제공하고 있는 토큰화 방법이 아닌 커스텀한 함수로 토큰화 하고자 할 때 함수를 만들어서 넣어줄 수 있습니다.
* ngram_range : n-그램 범위로 단어를 몇 개로 토큰화 할지를 의미합니다.
* max_df : 문서에서 등장하는 최대 빈도수를 의미합니다.
* min_df : 문서에서 등장하는 최소 빈도수를 의미합니다.
기본적으로 위의 옵션을 주로 사용하며, 나머지 옵션은 아래 문서를 읽어보시면 좋을거 같습니다.
[데이터 사이언스 스쿨](https://datascienceschool.net/view-notebook/3e7aadbf88ed4f0d87a76f9ddc925d69/)
[강의 02 단어 카운트 (CountVectorizer) - 토닥토닥 파이썬 - 텍스트 대상 머신 러닝](https://wikidocs.net/33661)
[sklearn.feature_extraction.text.CountVectorizer — scikit-learn 0.22.2 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)
word2vec 질문
0
306
1
질문 드립니다
0
326
1
%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4)
0
329
2
한국어 텍스트 분석과 영어 텍스트 분석의 차이
0
551
1
코랩 실습 링크 파일 다시 올려주시면 안되나요?
0
465
1
강의 자료는 어디서 받을 수 있나요?
0
350
1
data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?
1
719
4
젠심
1
386
1
질문드립니다
1
232
1
질문드립ㄴ디ㅏ
1
409
3
질문드립니다
1
335
2
word2vec 실행 오류
1
382
1
gensim 4.0 버전 문제
1
2173
1
멀티 프로세싱 오류 질문입니다
1
1099
1
1-2 NLP 텍스트 데이터 처리 오류 관련 질문드립니다.
1
352
1
1강 질문드립니다.
1
235
1
질문드립니다.
1
428
2
질문드립니다.
1
210
1
id 말고 어떤 영화인지는 어떻게 알수있을까요?
1
281
1
[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
1
481
1
has no attribute 'syn0'
2
324
1
영상 "섹션1. [2/4] NLP 텍스트 데이터 전처리" 부분에 대해 질문 있습니다!
1
311
5
wget 오류
1
781
1
html5lib 과 lxml 에서 모두 에러가 발생하고 있습니다.
1
529
1





