강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

이해인님의 프로필 이미지
이해인

작성한 질문수

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

[3/4] CountVectorizer로 텍스트 데이터 벡터화

CountVectorizer 파라미터 값 질문

작성

·

249

1

안녕하세요.

countvectorizer의 파라미터 값에 대해 궁금해 질문 남깁니다.

찾아보니, tokenizer, analyzer, token_pattern 의 인수가 모두 토큰 생성기 선택에 관한 인수라고 나와있던데 각각의 인수가 뜻하는 게 뭔지 정확히 알고 싶습니다. 

찾아본 바로는

tokenizer: 함수 또는 None(default), 토큰 생성 함수
analyzer: 문자열 {'word', 'char', 'char_wb'} 또는 함수
token_pattern: string, 토큰 정의용 정규표현식

이라고 설명되어있던데 정확한 설명을 구할 수 없어 질문 드립니다. 답변 부탁드립니다.

답변

답변을 기다리고 있는 질문이에요
첫번째 답변을 남겨보세요!
이해인님의 프로필 이미지
이해인

작성한 질문수

질문하기