질문입니다.!

미해결질문
류성관 프로필
:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline

# 튜토리얼과 다르게 파라메터 값을 수정
# 파라메터 값만 수정해도 캐글 스코어 차이가 많이 남
vectorizer = CountVectorizer(analyzer = 'word', 
                             tokenizer = None,
                             preprocessor = None, 
                             stop_words = None, 
                             min_df = 2, # 토큰이 나타날 최소 문서 개수
                             ngram_range=(1, 3),
                             max_features = 20000
                            )
vectorizer


여기서 토큰이 나타날 최소 문서갯수가 정확하게 무슨의미인가요..?와닿지가 않아서..

박조은 프로필
박조은 5달 전

안녕하세요.

전체 문서에서 단어가 너무 적게 등장한다면 의미가 크게 없을 수도 있습니다.

예를 들어 오타가 나거나 희귀한 단어가 여기에 해당이 될텐데요.

그래서 전체 문서에서 단어가 2개 이상의 문서에서 등장을 해야지 토큰으로 사용하겠다는 의미입니다.

토큰을 만들 때 "ㅋㅋㅋ"혹은 "ㅋㅋㅋㅋ" 라는 두 개의 단어가 있다고 하면 두 개의 단어는 같은 단어이지만 길이가 다르기 때문에 다른 단어로 인식합니다. 그래서 "ㅋㅋㅋ"는 전체 문서에서 2번 이상 등장하지만 "ㅋㅋㅋㅋ"는 한 번만 등장한다면 문서에서 제외하게 됩니다.

좋은질문 감사합니다 :)

지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강의들을
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스