• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

질문입니다.!

20.05.28 13:59 작성 조회수 122

1

:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline

# 튜토리얼과 다르게 파라메터 값을 수정
# 파라메터 값만 수정해도 캐글 스코어 차이가 많이 남
vectorizer = CountVectorizer(analyzer = 'word', 
                             tokenizer = None,
                             preprocessor = None, 
                             stop_words = None, 
                             min_df = 2, # 토큰이 나타날 최소 문서 개수
                             ngram_range=(1, 3),
                             max_features = 20000
                            )
vectorizer


여기서 토큰이 나타날 최소 문서갯수가 정확하게 무슨의미인가요..?와닿지가 않아서..

답변 1

답변을 작성해보세요.

0

안녕하세요.

전체 문서에서 단어가 너무 적게 등장한다면 의미가 크게 없을 수도 있습니다.

예를 들어 오타가 나거나 희귀한 단어가 여기에 해당이 될텐데요.

그래서 전체 문서에서 단어가 2개 이상의 문서에서 등장을 해야지 토큰으로 사용하겠다는 의미입니다.

토큰을 만들 때 "ㅋㅋㅋ"혹은 "ㅋㅋㅋㅋ" 라는 두 개의 단어가 있다고 하면 두 개의 단어는 같은 단어이지만 길이가 다르기 때문에 다른 단어로 인식합니다. 그래서 "ㅋㅋㅋ"는 전체 문서에서 2번 이상 등장하지만 "ㅋㅋㅋㅋ"는 한 번만 등장한다면 문서에서 제외하게 됩니다.

좋은질문 감사합니다 :)