inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지

<실습> CountVectorizer 사용하기

CountVectorizer 관련 오류

362

Henry Lee

작성한 질문수 2

0

CountVectorizer 관련하여 이하와 같은 문구가 뜨는데 어떻게 해결이 가능할까요?

anaconda 웹-크롤링 pandas 텍스트마이닝

답변 1

0

My Incizor

안녕하십니까, 인사이저 입니다.

올려주신 이슈는 에러가 아닌 경고 문구로서,

'토크나이저를 임의로 설정했기에 token_pattern이 쓰이지 않았다'는 의미입니다.

token_pattern 파라메터는 정규표현식 값을 받아서,

해당 패턴에 부합하는 토큰들만 CountVectorizer에 적용시키라는 기능으로 작동하게 됩니다.

예를들어,

상기의 그림 처럼 't\w+' 정규표현식을 설정하게 되면

토큰 중에 't'로 시작되는 단어들만 카운트 하는 방식으로 벡터라이저가 작동되는 셈입니다.

하지만 저희 코드에서는 토큰 선별하는 작업을 이미 tokenizer에서 처리하도록 설정하였기에,

(토큰 중 문자가 두개 이상인 것만 가져와라 설정)

token_pattern을 굳이 설정할 필요는 없습니다.

즉 경고는 뜨지만 CountVectorizer는 정상 작동한 셈입니다.

해당 문구는 fit() 함수를 다시 한 번 호출하거나,

처음에 CountVectorizer 선언 시 token_pattern 파라메터로 'None' 값을 전달하면 경고가 뜨지 않을 것입니다.

내용 확인해보시고,

추가로 궁금한 사항이 있을 시

언제든 문의 주시기 바랍니다.

감사합니다.

jpype 설치관련

0

1841

2

Konlpy 설치

0

1004

2

Konlpy 설치 페이지에서 jpype 설치 링크

0

390

1

맥 os에서 폰트 경로 지정*코랩 사용

0

1266

1

Re. Konlpy 설치오류(Okt 오류)

0

1599

1

Konlpy 설치 오류

0

3851

1

tfidf 관련

0

528

1

TF-IDF 질문입니다.

0

554

1

토픽모델링 날짜 관련 오류

0

272

1

질문드립니다.

0

352

1

워드클라우드 plt.subplot 질문

0

325

1

p54 문의드립니다

0

197

1

문의드립니다.

0

1057

1

문의드립니다

0

217

1

p55 문의드립니다

0

228

1

mecab 설치 오류

0

476

1

mecab 설치 오류

0

1375

1

가이드 53페이지 질문(konlpy 파일 없음)

0

290

1

konlpy 설치 오류

0

630

1

jpype 설치 오류

0

280

1

wordcloud image mask가 적용이 안됩니다.

0

1288

1

wordcloud 설치가 안됩니다

0

275

1

가상환경 3.7.11로 설치한 가상환경을 conda info로 확인한 버전과 python --version으로 확인한 버전과 다릅니다.

0

671

1

p.45 konlpy 설치 확인단계에서 오류가 발생합니다.

0

6080

4