regplot 사용 시 2015.5 와 같은 표현 관련 질문
435
작성한 질문수 2
안녕하세요.
좋은 강의 감사합니다.
3분 강의 내용과 다르게, 저는 regplot 시 년도가 2015.5등으로 나오던데, 어떤 옵션을 바꾸어야 강의와 같이 나누어 떨어지는 년도만 나오고, 데이터가 없는 2013~2014, 2020~2021이 나오게 표현할 수 있나요?
답변 1
3
안녕하세요.
버전이 변경되면서 내부 옵션이 변경된 것 같은데요.
lmplot 의 내부는 scatterplot, regplot 으로 되어 있어요.
scatterplot 은 수치vs수치데이터를 표현하는 것을 기본으로 하고요.
regplot은 수치vs수치 데이터에 대한 회귀선을 그려줍니다.
lmplot은 regplot의 서브플롯을 그려주는 역할을 하게 됩니다.
regplot을 그릴 때 기본 가정은 x, y축이 모두 수치데이터입니다.
하지만 여기에서 "연도"는 숫자로 되어 있지만 "범주형(카테고리)" 형태에 가깝습니다.
그래서 이렇게 범주형 데이터의 scatterplot을 그릴 때는 해당 실습 아래에 있는 swarmplot을 사용합니다.
여기에서 x 축 값에 소숫점이 들어가는 이유는 버전이 변경되면서 x축에 표기되는 값이 변경되었는데요.
소스코드 내부를 보면 x_bins 와 x_estimator 라는 옵션이 있습니다.
x_estimator 옵션을 보면 np.mean으로 label 값을 표현할 때 평균값을 구해서 표현을 하게 되어 있어요.
그런데 평균을 구하다보면 소숫점이 발생하기 때문에 x축에 소숫점이 표현이 된 것이고요.
여기에서 소숫점을 제외하고 그리고자 한다면 가장 간단한 방법은 x_jitter 옵션을 사용하시는 겁니다.
regplot을 그리게 되면 x 축 값이 같기 때문에 하나의 point 에 여러 점이 찍히게 되는데 그러면 여기에 중복이 되어 점이 찍히기 때문에 점의 갯수가 많은지 적은지 확인이 어렵습니다. 그래서 이걸 조금 흩어지게 그리면 빈도수를 함께 표현할 수 있는게 x_jitter 입니다.
해당 값을 조정해 보시면 몰려있는 값을 흩어지게 표현해서 빈도수를 좀 더 자세히 표현해 보실 수 있습니다.

패키지 설치 에러 ydata-profiling
0
121
2
자세한 설명 부탁드려요 ㅜ
0
177
2
seaborn 라이브러리 호출하였으나 그래프가 안 그려져요
0
288
2
value_counts와 count 차이
0
343
2
안녕하세요 데이터 최신과 관련해서 문의드립니다.
0
205
3
scatterplot질문
0
122
1
강의 화면이 안나옵니다
0
164
2
4분12초 2013년부터 데이터가 없으면 어떻게하나요?..
0
188
2
에러 메시지
1
303
2
그래프 색이 동일하게 나옵니다.
0
309
2
시각화 라이브러리 비교
0
384
2
주피터 노트북 설치
0
390
1
2. 상가 기술통계 아웃풋 자료에서 오류가 납니다
0
226
1
14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류
0
178
1
group by agg function failed 에러
0
687
2
빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.
0
288
2
주피터 노트북 실행 했는데 앞에 *가 생기고 결과가 나오지 않아요
0
363
3
get_string함수에서 문자 'nan'
0
200
1
seaborn X축 시작 지점 조정 질의의 건
0
213
1
14강 distplot 질의
0
289
1
nbextension 설치 및 셋팅 후 적용이 안되는 이슈
0
478
1
corr = df.corr() 입력시 오류
1
373
1
keyword grid_b is not recognized
0
336
1
%ls data 매직커맨드 사용시 한글 깨짐
0
293
1





