안녕하세요. 수업듣고 여쭤보고 싶은게 있습니다.

미해결질문
류성관 프로필

wardtovec도 벡터화하는건데 이거를 머신러닝의 입력으로도 많이 활용되나요 ..??

CounterVectorizer는 딥러닝에 적합하지 않는데 역으로 wordtovec은 어떤지 궁금합니다 ..ㅎ..강의를 끝까지 안듣고 질문한걸수도있는데 급 궁금해서요.

그리고 단어연관도 서로 묶어주고하며은 당연히 wordtovec이 압도적으로 좋고 많이써야되는거 아니에여?

박조은 프로필
박조은 5달 전

안녕하세요. 

딥러닝에서도 CounterVectorizer 를 통해 단어를 벡터화 해주고 모델에 사용하기도 합니다.

딥러닝을 사용한다면 텐서플로우, 케라스 등의 라이브러리에서도 벡터화 해주는 기능을 제공하는데 사이킷런에 있는 단어를 토큰화 해주는 작업과 유사합니다. 

말씀해 주신 것 처럼 word2vec을 사용하면 좀 더 좋은 성능을 내기도 합니다. 하지만 미리 학습된 모델이 부족하다면 토큰화 해주었을 때 보다 좋은 성능이 나오지 않는 경우도 있습니다.

그래서 word2vec 그리고 최근 많이 사용하고 있는 bert 에서는 pretrained 모델을 가져다 사용하기도 합니다. 이 때 외부 데이터셋으로 학습된 데이터를 사용하게 되는데요. 이것 또한 미리 학습된 데이터가 예측하고자 하는 데이터와 내용이 많이 다르다면 성능이 꼭 좋게 나온다고 보장할 수 없습니다.

지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강의들을
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스