• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

bag of centroid 관련 질문

20.05.25 16:36 작성 조회수 101

1

Part3 에서 bag of centroid 는 단지 클러스터링 된 word  각각에 대해 몇번 클러스터에 속했는지 one-hot encoding 으로 바꿔주는 건가요??

답변 1

답변을 작성해보세요.

0

안녕하세요.

질문 주신 내용이 맞습니다. word2vec을 통해 추출해 놓은 벡터를 군집화로 모아주고 해당 군집에 단어가 들어가는지 유무를 확인하게 됩니다.

이렇게 하게 되면 BOW로 벡터화 했을 때보다 가까운 거리에 있는 단어끼리 모아주고 벡터화를 하게됩니다.

BOW로 벡터화를 하게 되면 단어 사전에 지정된 갯수만큼만 벡터화가 됩니다.

TF-IDF로 빈도수를 조절해 주기도 하는데 역시 가중치가 낮은 벡터는 단어사전에 없다면 제외가 되게 됩니다.

군집화를 하게 되면 해당 군집에 해당되는 토큰들이 문서에 있는지 확인해서 사용하게 됩니다.