df.describe(include='all')에서 질문입니다.

Question

섹션4의 7) 기본 통계 하기 value_counts, nunique, sum, count, mean, median 에서 질문입니다.

df.describe(include='all')을 출력하니

강의처럼 이런 결과가 나왔습니다.

인터넷으로 검색해보았더니 top은 가장 많은 빈도수를 갖는 변수, freq는 top에 해당하는 변수의 빈도수를 의미한다는 것을 알았습니다.

그러면 여기서 unique가 의미하는 바는 무엇인지, 그리고 처음 4개의 column에서는 unique, top, freq에 해당하는 부분이 전부 NaN으로 처리가 되는지 궁금합니다.

제 생각엔 sepal_length라는 column에서도 가장 빈도수가 높은 수치들이 있을 텐데 왜 그 수치들을 표시하는 대신에 NaN을 결과로 내보내는지 이해가 되지 않습니다.

Answer

안녕하세요. 답변이 늦었습니다.

1. unique는 중복을 제거한 종류의 수 입니다. 여기에서는 iris의 species 가 3종류가 있다는 의미입니다.

2. 처음 4개의 column에서는 unique, top, freq에 해당하는 부분이 전부 NaN으로 처리가 되는 이유는 include=pd.np.number 와 include=pd.np.object 로 옵션값을 비교해 보시면 include=pd.np.number 에서 해당 값이 표시가 되지 않음을 알 수 있습니다.

수치형 데이터의 요약값과 object 타입의 요약값이 다른데 이를 하나의 표에 보여주다보니 결측치로 표기가 되었다고 보시면 됩니다.

3. 수치를 빈도수로 표현하고자 하면 데이터타입을 object 형태로 변경해 주어야지만 빈도수 등을 표현할 수 있습니다.

감사합니다.

jnh7807

df.describe(include='all')에서 질문입니다.

이 글과 비슷한 Q&A

강의 크롤링 엑셀 파일로 저장하는 것까지 추가해 봤습니다.

선생님이랑 똑같이 적었는데 저는 왜 오류가 날까요?ㅠ

pd.Series

Feature Scaling