CountVectorizer 파라미터 질문

Question

안녕하세요. 아래 질문과 비슷한 내용인데 답변이 없어서 다시 질문 드립니다.

1. 파라미텅 중 analyzer, tokenizer, preprocessor에 대해서 설명 좀 부탁 드립니다. 구글링해도 명확하게 이해가 안되네요ㅜㅜ

2. 파라미터 중 stop_words가 있더라구요. 앞에도 별도로 불용어 처리 안해주고 여기서 처리해도 되는건가요?

3. max_features 지정할 때 참조할만한 기준이 있나요? min-df와는 연관성이 없나요?

강의 중에 간단하게나마 설명해 주시면 더 감사하겠습니다 ^^;; 저같은 초보들은 구글링하는 데 시간이 꽤 걸러서요ㅜㅜ

Answer

안녕하세요.

질문해 주신 내용을 찾아봤는데 모두 답변을 해드린 것 같은데 혹시 놓친 부분이 있으면 다시 질문해 주세요.

기존해 질문해 주신 내용에 대한 답변은 각 링크에서 확인해 주시면 됩니다.

[인프런 - 기초 질문 드립니다.](https://www.inflearn.com/questions/25642)

CountVectorizer 의 옵션은

* stop_words : 리스트 형태로 불용어로 처리하고자 하는 문자를 넣어주시면 됩니다.

불용어에 대한 내용은 위 링크에 있는 질문에 답변해 드렸습니다.

* analyzer : 문자열 {‘word’, ‘char’, ‘char_wb’} 또는 함수로 어떤 단위로 토큰화 할지를 정의합니다.

* token_pattern : 토큰화 하는 정규표현식 패턴입니다.

* tokenizer : 사이킷런에서 기본으로 제공하고 있는 토큰화 방법이 아닌 커스텀한 함수로 토큰화 하고자 할 때 함수를 만들어서 넣어줄 수 있습니다.

* ngram_range : n-그램 범위로 단어를 몇 개로 토큰화 할지를 의미합니다.

* max_df : 문서에서 등장하는 최대 빈도수를 의미합니다.

* min_df : 문서에서 등장하는 최소 빈도수를 의미합니다.

기본적으로 위의 옵션을 주로 사용하며, 나머지 옵션은 아래 문서를 읽어보시면 좋을거 같습니다.

[강의 02 단어 카운트 (CountVectorizer) - 토닥토닥 파이썬 - 텍스트 대상 머신 러닝](https://wikidocs.net/33661)