[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

[2/2] K-means로 군집화(Clustering) 하고 bag of centroids를 생성하고 랜덤포레스트로 학습, 예측하기

bag of centroid 관련 질문

2020-05-25T07:36:58.427Z

173

sbrhim

작성한 질문수 2

Part3 에서 bag of centroid 는 단지 클러스터링 된 word 각각에 대해 몇번 클러스터에 속했는지 one-hot encoding 으로 바꿔주는 건가요??

python NLP

답변 1

박조은

2020-05-26T00:49:46.209Z

안녕하세요.

질문 주신 내용이 맞습니다. word2vec을 통해 추출해 놓은 벡터를 군집화로 모아주고 해당 군집에 단어가 들어가는지 유무를 확인하게 됩니다.

이렇게 하게 되면 BOW로 벡터화 했을 때보다 가까운 거리에 있는 단어끼리 모아주고 벡터화를 하게됩니다.

BOW로 벡터화를 하게 되면 단어 사전에 지정된 갯수만큼만 벡터화가 됩니다.

TF-IDF로 빈도수를 조절해 주기도 하는데 역시 가중치가 낮은 벡터는 단어사전에 없다면 제외가 되게 됩니다.

군집화를 하게 되면 해당 군집에 해당되는 토큰들이 문서에 있는지 확인해서 사용하게 됩니다.

word2vec 질문

2023-08-12T12:09:45.129Z

312

질문 드립니다

2023-07-23T15:36:03.369Z

335

%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4)

2023-07-23T12:18:07.021Z

337

한국어 텍스트 분석과 영어 텍스트 분석의 차이

2023-05-30T00:43:09.936Z

565

코랩 실습 링크 파일 다시 올려주시면 안되나요?

2023-05-29T15:59:20.504Z

478

강의 자료는 어디서 받을 수 있나요?

2023-04-09T12:52:54.466Z

362

data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?

2022-07-27T07:15:48.300Z

734

젠심

2022-03-28T00:47:56.224Z

393

질문드립니다

2022-03-25T08:31:21.557Z

242

질문드립ㄴ디ㅏ

2022-03-25T04:38:17.898Z

415

질문드립니다

2022-03-25T03:48:06.564Z

341

word2vec 실행 오류

2022-03-22T06:04:20.113Z

394

gensim 4.0 버전 문제

2022-03-18T08:52:33.578Z

2180

멀티 프로세싱 오류 질문입니다

2022-01-26T13:13:00.384Z

1109

1-2 NLP 텍스트 데이터 처리 오류 관련 질문드립니다.

2022-01-15T18:49:07.919Z

360

1강 질문드립니다.

2022-01-14T07:53:25.331Z

242

질문드립니다.

2021-12-28T09:43:40.950Z

436

질문드립니다.

2021-11-21T15:26:56.922Z

221

id 말고 어떤 영화인지는 어떻게 알수있을까요?

2021-11-06T22:33:30.646Z

283

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

2021-05-17T07:05:50.336Z

486

has no attribute 'syn0'

2021-04-15T20:37:05.750Z

329

영상 "섹션1. [2/4] NLP 텍스트 데이터 전처리" 부분에 대해 질문 있습니다!

2021-04-11T08:01:45.205Z

319

wget 오류

2021-03-07T14:53:53.291Z

790

html5lib 과 lxml 에서 모두 에러가 발생하고 있습니다.

2021-01-10T11:55:13.921Z

536