인프런 커뮤니티 질문&답변
CountVectorizer 관련 오류
작성
·
355
퀴즈
73%나 틀려요. 한번 도전해보세요!
텍스트 분석에서 '특성 추출'을 하는 주된 목적은 무엇일까요?
텍스트의 오탈자를 수정하기 위해서
컴퓨터가 텍스트를 이해하도록 숫자로 변환하기 위해서
텍스트를 다른 언어로 자동 번역하기 위해서
텍스트의 문법적인 오류를 찾아내기 위해서
답변 1
0
My Incizor
지식공유자
안녕하십니까, 인사이저 입니다.
올려주신 이슈는 에러가 아닌 경고 문구로서,
'토크나이저를 임의로 설정했기에 token_pattern이 쓰이지 않았다'는 의미입니다.
token_pattern 파라메터는 정규표현식 값을 받아서,
해당 패턴에 부합하는 토큰들만 CountVectorizer에 적용시키라는 기능으로 작동하게 됩니다.
예를들어,
상기의 그림 처럼 't\w+' 정규표현식을 설정하게 되면
토큰 중에 't'로 시작되는 단어들만 카운트 하는 방식으로 벡터라이저가 작동되는 셈입니다.
하지만 저희 코드에서는 토큰 선별하는 작업을 이미 tokenizer에서 처리하도록 설정하였기에,
(토큰 중 문자가 두개 이상인 것만 가져와라 설정)
token_pattern을 굳이 설정할 필요는 없습니다.
즉 경고는 뜨지만 CountVectorizer는 정상 작동한 셈입니다.
해당 문구는 fit() 함수를 다시 한 번 호출하거나,
처음에 CountVectorizer 선언 시 token_pattern 파라메터로 'None' 값을 전달하면 경고가 뜨지 않을 것입니다.
내용 확인해보시고,
추가로 궁금한 사항이 있을 시
언제든 문의 주시기 바랍니다.
감사합니다.





