inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

공공데이터로 파이썬 데이터 분석 시작하기

[5/20] 문자 vs 수치 형태의 데이터를 describe 로 기술통계값을 봤을 때 차이를 이해하기

선생님

156

freedom07

작성한 질문수 104

1

이 부분 설명하실 때 궁금한점이요..

"분양가격(㎡)"컬럼의 경우는 object type이라  총 데이터(4335개) 중 분양가격값과 공백은 포함하고 nan 값(277개)이 제외되고 4058개 인건가요~? 

"분양가격"컬럼의 경우는 float type이라 nan 과 공백까지 제외되서 3957개 인거지요~?

근데 궁금한것이.. type(pd.np.nan)하면 type이 float으로 뜨는데 float type인 nan 값이 같은 float타입인 "분양가격" 칼럼에서 왜 제외가 되나요~?(nan으로 쓰여지면 결측치로 지정이 되어서 그런건가요~?)  

python pandas numpy

답변 3

2

박조은

안녕하세요!

"분양가격(㎡)"컬럼의 경우는 object type이라  총 데이터(4335개) 중 분양가격값과 공백은 포함하고 nan 값(277개)이 제외되고 4058개 인건가요~? 

=> 네 맞습니다.

"분양가격"컬럼의 경우는 float type이라 nan 과 공백까지 제외되서 3957개 인거지요~?

=> 네 이것도 맞습니다. pd.to_numeric으로 변환해 주면서 공백 문자 등은 np.nan 값으로 변경이 되게 됩니다.

np.nan은 결측치이기 때문에 정말 값이 있는 데이터만 count 하게 됩니다.

근데 궁금한것이.. type(pd.np.nan)하면 type이 float으로 뜨는데 float type인 nan 값이 같은 float타입인 "분양가격" 칼럼에서 왜 제외가 되나요~?(nan으로 쓰여지면 결측치로 지정이 되어서 그런건가요~?)  

=> np.nan 은 float 타입이더라도 결측치이기 때문에 count값에서는 제외가 됩니다.

float 타입이라 하더라도 값이 없기 때문에 해당 데이터는 count 하지 않아요.

object 타입의 데이터가 있는 컬럼이라 하더라도 np.nan 이라는 데이터가 있다면 그 데이터는 count에서 제외되게 됩니다.

감사합니다 :)

1

freedom07

네 선생님 ㅠㅠ 제가 질문 수정했어요 ㅠㅠ

항상 답변 빠르게 해주시려고 하셔서 감사드려요..ㅠㅠ!

0

박조은

안녕하세요.

질문 내용이 누락된거 같아요.

패키지 설치 에러 ydata-profiling

0

119

2

자세한 설명 부탁드려요 ㅜ

0

176

2

seaborn 라이브러리 호출하였으나 그래프가 안 그려져요

0

285

2

value_counts와 count 차이

0

341

2

안녕하세요 데이터 최신과 관련해서 문의드립니다.

0

204

3

scatterplot질문

0

122

1

강의 화면이 안나옵니다

0

164

2

4분12초 2013년부터 데이터가 없으면 어떻게하나요?..

0

188

2

에러 메시지

1

303

2

그래프 색이 동일하게 나옵니다.

0

308

2

시각화 라이브러리 비교

0

382

2

주피터 노트북 설치

0

390

1

2. 상가 기술통계 아웃풋 자료에서 오류가 납니다

0

226

1

14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류

0

178

1

group by agg function failed 에러

0

687

2

빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.

0

288

2

주피터 노트북 실행 했는데 앞에 *가 생기고 결과가 나오지 않아요

0

363

3

get_string함수에서 문자 'nan'

0

200

1

seaborn X축 시작 지점 조정 질의의 건

0

213

1

14강 distplot 질의

0

289

1

nbextension 설치 및 셋팅 후 적용이 안되는 이슈

0

477

1

corr = df.corr() 입력시 오류

1

372

1

keyword grid_b is not recognized

0

334

1

%ls data 매직커맨드 사용시 한글 깨짐

0

292

1