inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

[2/2] K-means로 군집화(Clustering) 하고 bag of centroids를 생성하고 랜덤포레스트로 학습, 예측하기

bag of centroid 관련 질문

167

sbrhim

작성한 질문수 2

1

Part3 에서 bag of centroid 는 단지 클러스터링 된 word  각각에 대해 몇번 클러스터에 속했는지 one-hot encoding 으로 바꿔주는 건가요??

python NLP

답변 1

0

박조은

안녕하세요.

질문 주신 내용이 맞습니다. word2vec을 통해 추출해 놓은 벡터를 군집화로 모아주고 해당 군집에 단어가 들어가는지 유무를 확인하게 됩니다.

이렇게 하게 되면 BOW로 벡터화 했을 때보다 가까운 거리에 있는 단어끼리 모아주고 벡터화를 하게됩니다.

BOW로 벡터화를 하게 되면 단어 사전에 지정된 갯수만큼만 벡터화가 됩니다.

TF-IDF로 빈도수를 조절해 주기도 하는데 역시 가중치가 낮은 벡터는 단어사전에 없다면 제외가 되게 됩니다.

군집화를 하게 되면 해당 군집에 해당되는 토큰들이 문서에 있는지 확인해서 사용하게 됩니다.

word2vec 질문

0

305

1

질문 드립니다

0

326

1

%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4)

0

329

2

한국어 텍스트 분석과 영어 텍스트 분석의 차이

0

551

1

코랩 실습 링크 파일 다시 올려주시면 안되나요?

0

465

1

강의 자료는 어디서 받을 수 있나요?

0

350

1

data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?

1

719

4

젠심

1

386

1

질문드립니다

1

232

1

질문드립ㄴ디ㅏ

1

409

3

질문드립니다

1

335

2

word2vec 실행 오류

1

382

1

gensim 4.0 버전 문제

1

2173

1

멀티 프로세싱 오류 질문입니다

1

1099

1

1-2 NLP 텍스트 데이터 처리 오류 관련 질문드립니다.

1

352

1

1강 질문드립니다.

1

235

1

질문드립니다.

1

428

2

질문드립니다.

1

210

1

id 말고 어떤 영화인지는 어떻게 알수있을까요?

1

281

1

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

1

481

1

has no attribute 'syn0'

2

324

1

영상 "섹션1. [2/4] NLP 텍스트 데이터 전처리" 부분에 대해 질문 있습니다!

1

311

5

wget 오류

1

781

1

html5lib 과 lxml 에서 모두 에러가 발생하고 있습니다.

1

528

1