인프런 커뮤니티 질문&답변
bag of centroid 관련 질문
작성
·
166
답변 1
0
박조은
지식공유자
안녕하세요.
질문 주신 내용이 맞습니다. word2vec을 통해 추출해 놓은 벡터를 군집화로 모아주고 해당 군집에 단어가 들어가는지 유무를 확인하게 됩니다.
이렇게 하게 되면 BOW로 벡터화 했을 때보다 가까운 거리에 있는 단어끼리 모아주고 벡터화를 하게됩니다.
BOW로 벡터화를 하게 되면 단어 사전에 지정된 갯수만큼만 벡터화가 됩니다.
TF-IDF로 빈도수를 조절해 주기도 하는데 역시 가중치가 낮은 벡터는 단어사전에 없다면 제외가 되게 됩니다.
군집화를 하게 되면 해당 군집에 해당되는 토큰들이 문서에 있는지 확인해서 사용하게 됩니다.





