강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

sbrhim님의 프로필 이미지
sbrhim

작성한 질문수

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

[2/2] K-means로 군집화(Clustering) 하고 bag of centroids를 생성하고 랜덤포레스트로 학습, 예측하기

bag of centroid 관련 질문

작성

·

166

1

Part3 에서 bag of centroid 는 단지 클러스터링 된 word  각각에 대해 몇번 클러스터에 속했는지 one-hot encoding 으로 바꿔주는 건가요??

답변 1

0

박조은님의 프로필 이미지
박조은
지식공유자

안녕하세요.

질문 주신 내용이 맞습니다. word2vec을 통해 추출해 놓은 벡터를 군집화로 모아주고 해당 군집에 단어가 들어가는지 유무를 확인하게 됩니다.

이렇게 하게 되면 BOW로 벡터화 했을 때보다 가까운 거리에 있는 단어끼리 모아주고 벡터화를 하게됩니다.

BOW로 벡터화를 하게 되면 단어 사전에 지정된 갯수만큼만 벡터화가 됩니다.

TF-IDF로 빈도수를 조절해 주기도 하는데 역시 가중치가 낮은 벡터는 단어사전에 없다면 제외가 되게 됩니다.

군집화를 하게 되면 해당 군집에 해당되는 토큰들이 문서에 있는지 확인해서 사용하게 됩니다.

sbrhim님의 프로필 이미지
sbrhim

작성한 질문수

질문하기