문서유사도와 상관관계
582
작성한 질문수 9
문서유사도를 보니 갑자기 상관관계와 꽤 비슷해보인것 같은데 다른개념인것을 알지만 둘의 큰 차이를 알 수 있을까요??
답변 1
0
안녕하십니까,
문서 유사도를 측정하는 다양한 방법이 있습니다.
강의에서는 일반적으로 BOW 방식에서 가장 많이 활용되는 코사인 유사도를 소개해 드렸지만, 유클리드 거리 기반, 자카드 인덱스등 여러 지표들이 있습니다. 이들 BOW기반의 문서 유사도 측정 지표들은 문서를 단어 feature화 하여 count 또는 TF-IDF로 벡터화 합니다. 즉 COUNT기반 Feature vector라면 문서들을 [0 0 3,,,, 4, 0] 과 같은 방식으로 feature vector화 한 뒤에 이들 feature vector들이 얼마나 유사한지 코사인 유사도와 같은 지표를 이용하여 비교하게 됩니다. 코사인 유사도는 이들 벡터간의 방향성이 얼마나 유사한가를 측정합니다.
상관 관계는 두 feature(변수)가 얼마나 서로 관련이 있는 가를 나타냅니다. 가령 A feature의 값들이 증가할 때 B Feature의 값이 증가하는지(양의 상관관계), 감소하는지(음의 상관 관계), 아무 변동이 없는지(상관관계 0) 의 따라 상관 계수가 결정 됩니다.
상관 관계를 나타내는 다양한 방법이 있으며, 대표적으로 피어슨 상관 계수가 있습니다. +1로 갈 수록 강한 양의 상관 관계이며, -1로 갈수록 강한 음의 상관 관계를 나타냅니다.
따라서 문서 유사도는 문서들을 단어로 feature vector화된 행렬이 서로 얼마나 유사한지를 나타내는 것이며, 상관 관계는 두개의 feature(변수)들이 상호간에 얼마나 관련이 있는지를(A변수의 값이 증가할 때, B변수의 값은 어떻게 변하는지) 나타냅니다.
감사합니다.
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
6
1
안녕하세요 열심히 수강중인 학생입니다
0
63
2
정수 인덱싱
0
68
2
넘파이 오류
0
85
2
11강 numpy의 axis 축 질문 드립니다.
0
85
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
79
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
70
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
75
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
64
2
5강 강의 오류가 있어요.
0
84
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
72
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
69
3
파이썬 다운그레이 후 사이킷런 재설치
0
117
2
좋은 강의 감사합니다.
0
74
2
scoring 함수 음수값
0
67
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
100
2
분류 평가 정확도 예측
0
79
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
99
1
카카오톡 채널 있나요
0
108
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
190
2
pca 스케일링 관련하여 질문드립니다.
0
100
2
주피터 대신 구글 코랩
0
172
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
148
2
실루엣 스코어..
0
86
2





