문서유사도와 상관관계

Question

문서유사도를 보니 갑자기 상관관계와 꽤 비슷해보인것 같은데 다른개념인것을 알지만 둘의 큰 차이를 알 수 있을까요??

권 철민 · Answer

안녕하십니까, 문서 유사도를 측정하는 다양한 방법이 있습니다. 강의에서는 일반적으로 BOW 방식에서 가장 많이 활용되는 코사인 유사도를 소개해 드렸지만, 유클리드 거리 기반, 자카드 인덱스등 여러 지표들이 있습니다. 이들 BOW기반의 문서 유사도 측정 지표들은 문서를 단어 feature화 하여 count 또는 TF-IDF로 벡터화 합니다. 즉 COUNT기반 Feature vector라면 문서들을 [0 0 3,,,, 4, 0] 과 같은 방식으로 feature vector화 한 뒤에 이들 feature vector들이 얼마나 유사한지 코사인 유사도와 같은 지표를 이용하여 비교하게 됩니다. 코사인 유사도는 이들 벡터간의 방향성이 얼마나 유사한가를 측정합니다. 상관 관계는 두 feature(변수)가 얼마나 서로 관련이 있는 가를 나타냅니다. 가령 A feature의 값들이 증가할 때 B Feature의 값이 증가하는지(양의 상관관계), 감소하는지(음의 상관 관계), 아무 변동이 없는지(상관관계 0) 의 따라 상관 계수가 결정 됩니다. 상관 관계를 나타내는 다양한 방법이 있으며, 대표적으로 피어슨 상관 계수가 있습니다. +1로 갈 수록 강한 양의 상관 관계이며, -1로 갈수록 강한 음의 상관 관계를 나타냅니다. 따라서 문서 유사도는 문서들을 단어로 feature vector화된 행렬이 서로 얼마나 유사한지를 나타내는 것이며, 상관 관계는 두개의 feature(변수)들이 상호간에 얼마나 관련이 있는지를(A변수의 값이 증가할 때, B변수의 값은 어떻게 변하는지) 나타냅니다. 감사합니다.