안녕하세요. 수업듣고 여쭤보고 싶은게 있습니다.
212
작성한 질문수 3
wardtovec도 벡터화하는건데 이거를 머신러닝의 입력으로도 많이 활용되나요 ..??
CounterVectorizer는 딥러닝에 적합하지 않는데 역으로 wordtovec은 어떤지 궁금합니다 ..ㅎ..강의를 끝까지 안듣고 질문한걸수도있는데 급 궁금해서요.
그리고 단어연관도 서로 묶어주고하며은 당연히 wordtovec이 압도적으로 좋고 많이써야되는거 아니에여?
답변 1
0
안녕하세요.
딥러닝에서도 CounterVectorizer 를 통해 단어를 벡터화 해주고 모델에 사용하기도 합니다.
딥러닝을 사용한다면 텐서플로우, 케라스 등의 라이브러리에서도 벡터화 해주는 기능을 제공하는데 사이킷런에 있는 단어를 토큰화 해주는 작업과 유사합니다.
말씀해 주신 것 처럼 word2vec을 사용하면 좀 더 좋은 성능을 내기도 합니다. 하지만 미리 학습된 모델이 부족하다면 토큰화 해주었을 때 보다 좋은 성능이 나오지 않는 경우도 있습니다.
그래서 word2vec 그리고 최근 많이 사용하고 있는 bert 에서는 pretrained 모델을 가져다 사용하기도 합니다. 이 때 외부 데이터셋으로 학습된 데이터를 사용하게 되는데요. 이것 또한 미리 학습된 데이터가 예측하고자 하는 데이터와 내용이 많이 다르다면 성능이 꼭 좋게 나온다고 보장할 수 없습니다.
word2vec 질문
0
306
1
질문 드립니다
0
326
1
%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4)
0
329
2
한국어 텍스트 분석과 영어 텍스트 분석의 차이
0
551
1
코랩 실습 링크 파일 다시 올려주시면 안되나요?
0
465
1
강의 자료는 어디서 받을 수 있나요?
0
350
1
data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?
1
719
4
젠심
1
386
1
질문드립니다
1
232
1
질문드립ㄴ디ㅏ
1
409
3
질문드립니다
1
335
2
word2vec 실행 오류
1
382
1
gensim 4.0 버전 문제
1
2173
1
멀티 프로세싱 오류 질문입니다
1
1099
1
1-2 NLP 텍스트 데이터 처리 오류 관련 질문드립니다.
1
352
1
1강 질문드립니다.
1
235
1
질문드립니다.
1
428
2
질문드립니다.
1
210
1
id 말고 어떤 영화인지는 어떻게 알수있을까요?
1
281
1
[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
1
481
1
has no attribute 'syn0'
2
324
1
영상 "섹션1. [2/4] NLP 텍스트 데이터 전처리" 부분에 대해 질문 있습니다!
1
311
5
wget 오류
1
781
1
html5lib 과 lxml 에서 모두 에러가 발생하고 있습니다.
1
528
1





