인프런 커뮤니티 질문&답변
부산과 서울의 강한 음적 선형관계를 가질 때,
작성
·
499
답변 1
1
안녕하세요.
보통 수치형 vs 수치형 데이터를 비교할 때는 상관분석을 하기도 합니다.
위도, 경도는 지리적 정보라서 상관분석에 적합하지 않을 수도 있지만 그려진 회귀선을 해석한다면 강한 음적 선형관계에 있다는 것을 다음과 같이 설명할 수 있습니다.
판다스에서는 df.corr() 을 통해 상관계수를 직접 구할 수도 있으며, 이 때 기본 값으로 피어슨 상관계수를 사용합니다. 그래프에서 그려진 회귀식은 피어슨 상관계수와는 차이가 있으나 상관 계수를 확인할 때는 다음과 같이 확인해 볼 수 있습니다. 과거 seaborn 에서는 그래프에 상관계수를 표기해주기도 했으나 최근 버전으로 업데이트 되면서 상관계수 출력은 생략되었습니다. 상관 계수 외에도 회귀계수 등을 통해 구한 값으로 해석해 볼 수도 있습니다.
상관 분석
상관 분석(相關 分析, Correlation analysis) 또는 '상관관계' 또는 '상관'은 확률론과 통계학에서 두 변수간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법이다. 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로 ρ를 사용하며 표본 상관 계수로 r 을 사용한다.
상관관계의 정도를 파악하는 상관 계수(相關係數, Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.

* 출처 : https://ko.wikipedia.org/wiki/%EC%83%81%EA%B4%80_%EB%B6%84%EC%84%9D
피어슨 상관계수
* r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다.
* 결정계수(coefficient of determination)는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.
```
일반적으로
r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계
```

* 출처 : https://ko.wikipedia.org/wiki/%EC%83%81%EA%B4%80_%EB%B6%84%EC%84%9D#%ED%94%BC%EC%96%B4%EC%8A%A8_%EC%83%81%EA%B4%80_%EA%B3%84%EC%88%98





