부산과 서울의 강한 음적 선형관계를 가질 때,
516
작성한 질문수 1
선생님 궁금점이 생겨서 질문을 남깁니다
regplot을 사용하여 시각화 하였을 때 서울,부산의 관계는 강한 음적 선형관계를 가진다고 나타나였는데요! 이게 뜻하는 바가 어떤 의미인가요? 도출하고자하는 의미가 어떤 의미인지가 궁금합니다!
그래프는 이해하겠으나 정말 내가 무엇을 도출하고자 하는지를 이해가 가질 않습니답
답변 1
1
안녕하세요.
보통 수치형 vs 수치형 데이터를 비교할 때는 상관분석을 하기도 합니다.
위도, 경도는 지리적 정보라서 상관분석에 적합하지 않을 수도 있지만 그려진 회귀선을 해석한다면 강한 음적 선형관계에 있다는 것을 다음과 같이 설명할 수 있습니다.
판다스에서는 df.corr() 을 통해 상관계수를 직접 구할 수도 있으며, 이 때 기본 값으로 피어슨 상관계수를 사용합니다. 그래프에서 그려진 회귀식은 피어슨 상관계수와는 차이가 있으나 상관 계수를 확인할 때는 다음과 같이 확인해 볼 수 있습니다. 과거 seaborn 에서는 그래프에 상관계수를 표기해주기도 했으나 최근 버전으로 업데이트 되면서 상관계수 출력은 생략되었습니다. 상관 계수 외에도 회귀계수 등을 통해 구한 값으로 해석해 볼 수도 있습니다.
상관 분석
상관 분석(相關 分析, Correlation analysis) 또는 '상관관계' 또는 '상관'은 확률론과 통계학에서 두 변수간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법이다. 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로 ρ를 사용하며 표본 상관 계수로 r 을 사용한다.
상관관계의 정도를 파악하는 상관 계수(相關係數, Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.

* 출처 : https://ko.wikipedia.org/wiki/%EC%83%81%EA%B4%80_%EB%B6%84%EC%84%9D
피어슨 상관계수
* r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다.
* 결정계수(coefficient of determination)는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.
```
일반적으로
r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계
```

* 출처 : https://ko.wikipedia.org/wiki/%EC%83%81%EA%B4%80_%EB%B6%84%EC%84%9D#%ED%94%BC%EC%96%B4%EC%8A%A8_%EC%83%81%EA%B4%80_%EA%B3%84%EC%88%98
패키지 설치 에러 ydata-profiling
0
136
2
자세한 설명 부탁드려요 ㅜ
0
201
2
seaborn 라이브러리 호출하였으나 그래프가 안 그려져요
0
312
2
value_counts와 count 차이
0
403
2
안녕하세요 데이터 최신과 관련해서 문의드립니다.
0
223
3
scatterplot질문
0
135
1
강의 화면이 안나옵니다
0
174
2
4분12초 2013년부터 데이터가 없으면 어떻게하나요?..
0
197
2
에러 메시지
1
314
2
그래프 색이 동일하게 나옵니다.
0
332
2
시각화 라이브러리 비교
0
407
2
주피터 노트북 설치
0
399
1
2. 상가 기술통계 아웃풋 자료에서 오류가 납니다
0
235
1
14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류
0
188
1
group by agg function failed 에러
0
698
2
빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.
0
298
2
주피터 노트북 실행 했는데 앞에 *가 생기고 결과가 나오지 않아요
0
376
3
get_string함수에서 문자 'nan'
0
206
1
seaborn X축 시작 지점 조정 질의의 건
0
230
1
14강 distplot 질의
0
300
1
nbextension 설치 및 셋팅 후 적용이 안되는 이슈
0
494
1
corr = df.corr() 입력시 오류
1
389
1
keyword grid_b is not recognized
0
344
1
%ls data 매직커맨드 사용시 한글 깨짐
0
306
1





