판다스 value_counts()와 sort_values()에 대하여 문의합니다

Question

- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요. 강의 2.2. KRX 전체 종목분석-input 에서 실습을 하는데 df["Industry"].value_counts().head(20) 을 통해서 상위 20개의 Industry의 빈도를 순차적으로 결과를 도출하였고 value_counts()는 알아서 빈도가 높은 값부터 낮은 값으로 순처적으로 나온다고 하였는데 그래프를 df["Industry"].value_counts().head(20).plot.barh() 를 통해서 그리니까 빈도수가 반대로 나와서 다시 sort_values()를 통해서 정렬을 했는데요. 그래프로 하면 왜 value_counts()만으로는 빈도수가 제대로 정렬이 안되고 다시 sort_values()를 해줘야 하는걸까요? 그리고df["Market"].value_counts().sort_values().plot.barh()에서는 빈도수대로 정렬을 했는데 sns.countplot(data=df, y="Market").sort_values() 는 오류가 나서 빈도수대로 그래프 정렬은 어떻게 하면 되나요? sort_values()에 대해서 찾아보는데 정해진 기준에 따라 값을 정렬하는 함수라고 하는데 현재 코딩에서는 어떤 특별한 기준이 설정되거나 주어지지 않은거 같아서요... 무작정 그냥 외우기에는 조금 부족한 느낌이 들어 문의합니다. 감사합니다~

박조은 · Answer

안녕하세요. 해당 내용은 ETF 시각화에서 자세히 다루는데요. value_counts().barh() 를 하게 되면 빈도수가 낮은게 가장 아래에 표현이 됩니다. 그래서 sort_values()로 다시 정렬이 필요한데, 가로 막대가 그려지는 그래프는 빈도수가 가장 많은게 가장 하단에 오도록 구현이 되어 있어서 반대로 정렬하고자 하면 다시 sort_values()로 정렬이 필요합니다. 그리고 sort_values() 는 판다스의 기능이라 seaborn 에 메서드 체이닝 형태로는 사용할 수가 없습니다. 대신 order 에 정렬할 값을 리스트 형태로 지정하면 해당 값을 기준으로 정렬이 됩니다. 그래서 seaborn 의 countplot 을 사용하기 위해서는 아래와 같이 정렬해줄 값을 순서대로 지정해 주어야 합니다. sns.countplot(data=df, y="유형", order= df["유형"].value_counts().index )