msno.dendrogram()
405
작성한 질문수 18
안녕하세요 선생님
해당 코드로 dendrogram을 그리면 df의 결측 데이터로 그리는 건가요? 그냥 df 데이터로 그리는 건가요?
답변 1
0
안녕하세요!
missingno 는 결측치를 시각화 하는 도구입니다. 질문 주신 내용도 결측치로 그리게 됩니다.
아래 질문주신 내용에 대한 공식 문서 내용이 있으니 참고해 보세요!
출처 : https://github.com/ResidentMario/missingno
dendrogram
The dendrogram allows you to more fully correlate variable completion, revealing trends deeper than the pairwise ones visible in the correlation heatmap:
msno.dendrogram(collisions)
The dendrogram uses a hierarchical clustering algorithm (courtesy of scipy) to bin variables against one another by their nullity correlation (measured in terms of binary distance). At each step of the tree the variables are split up based on which combination minimizes the distance of the remaining clusters. The more monotone the set of variables, the closer their total distance is to zero, and the closer their average distance (the y-axis) is to zero.
To interpret this graph, read it from a top-down perspective. Cluster leaves which linked together at a distance of zero fully predict one another's presence—one variable might always be empty when another is filled, or they might always both be filled or both empty, and so on. In this specific example the dendrogram glues together the variables which are required and therefore present in every record.
Cluster leaves which split close to zero, but not at it, predict one another very well, but still imperfectly. If your own interpretation of the dataset is that these columns actually are or ought to be match each other in nullity (for example, as CONTRIBUTING FACTOR VEHICLE 2 and VEHICLE TYPE CODE 2 ought to), then the height of the cluster leaf tells you, in absolute terms, how often the records are "mismatched" or incorrectly filed—that is, how many values you would have to fill in or drop, if you are so inclined.
As with matrix, only up to 50 labeled columns will comfortably display in this configuration. However the dendrogram more elegantly handles extremely large datasets by simply flipping to a horizontal configuration.
패키지 설치 에러 ydata-profiling
0
127
2
자세한 설명 부탁드려요 ㅜ
0
187
2
seaborn 라이브러리 호출하였으나 그래프가 안 그려져요
0
297
2
value_counts와 count 차이
0
354
2
안녕하세요 데이터 최신과 관련해서 문의드립니다.
0
206
3
scatterplot질문
0
127
1
강의 화면이 안나옵니다
0
168
2
4분12초 2013년부터 데이터가 없으면 어떻게하나요?..
0
192
2
에러 메시지
1
308
2
그래프 색이 동일하게 나옵니다.
0
316
2
시각화 라이브러리 비교
0
391
2
주피터 노트북 설치
0
394
1
2. 상가 기술통계 아웃풋 자료에서 오류가 납니다
0
231
1
14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류
0
182
1
group by agg function failed 에러
0
692
2
빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.
0
290
2
주피터 노트북 실행 했는데 앞에 *가 생기고 결과가 나오지 않아요
0
369
3
get_string함수에서 문자 'nan'
0
204
1
seaborn X축 시작 지점 조정 질의의 건
0
222
1
14강 distplot 질의
0
293
1
nbextension 설치 및 셋팅 후 적용이 안되는 이슈
0
485
1
corr = df.corr() 입력시 오류
1
380
1
keyword grid_b is not recognized
0
339
1
%ls data 매직커맨드 사용시 한글 깨짐
0
301
1






