inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

공공데이터로 파이썬 데이터 분석 시작하기

[2/15] 데이터 로드하고 결측치 보기

결측치를 구하는 이유

380

jj

작성한 질문수 9

2

선생님 안녕하세요.

결측치를 구하는 이유가 무엇인가요?

컬럼이 39개나 되는데, 그중에 결측치가 많은 컬럼들은 제거하고 분석을 하기 위해서 하는 것인가요?

 

numpy python pandas

답변 1

0

박조은

안녕하세요.

어떤 데이터를 분석하든 데이터를 불러오면 기본적으로 보는 정보들이 있습니다.

shape를 통한 행과 열의 수라든지 info() 를 통해 데이터를 요약해 본다든지

describe()를 통해 기술 통계를 보고 

isnull() 을 통해 결측치 여부를 봅니다. 이렇게 데이터가 전체적으로 어떻게 구성되었는지 살펴보는 과정을 EDA 라고 하며 Exploratory Data Analysis, 탐색적 데이터 분석 이라고 부릅니다.

결측치가 많은 변수가 있다면 해당 변수를 사용할지 여부를 판단해 볼 수 있으며

또 해당 결측치가 왜 발생했는지 조사해 볼 수 있겠죠.

실습에서도 EDA 의 기본 과정으로 결측치를 보았습니다.

결측치가 많은 변수는 분석에 꼭 필요하지 않다면 제거를 해볼 수도 있을것이고요.

데이터의 용량이 커서 메모리를 많이 차지 한다거나 하면 사용하지 않는 변수를 제거해서 메모리를 효율적으로 사용해 볼 수도 있을거에요.

0

jj

아아 EDA 과정을 위해서, 데이터를 탐색해 보는 과정이었군요.

데이터를 분석하기 전에, 이러한 과정을 통해서 데이터가 어떻게 구성되었는지 살펴보는 과정이 중요한 것 같아요.

오늘도 하나 더 배우고 가는 것 같아요 ㅎㅎ 감사합니다 선생님!

아직 부족하지만, 배운것을 활용해서 다른 데이터 셋을 활용하여서 seaborn 을 이용해서 시각화를 하는 과정을 혼자 연습 해 보았는데, 강의를 보면서 따라하다가 혼자하려고 하니 처음에 데이터 경로설정 하는 것도 중요하겠구나 생각했었고,

그때는 EDA 과정을 제대로 진행하지 않았었는데 앞으로는 데이터 분석을 위해서는 필수적인 과정이 될것 같아요.

데이터 분석 분야에 대해 관심이 있고, 이 분야에 대해 궁금한게 많은데 개인적인 질문도 받아주실 수 있으실까요??

0

박조은

안녕하세요.

연습을 많이 해보는게 가장 좋은 방법입니다. 시행착오를 겪으면서 성장할수 있으니 계속 화이팅입니다!

수업에 관련된 내용은 질의응답을 통해 받고 있습니다.

개인적인 질문은 인프런 멘토링을 신청해 주세요!

0

jj

네 항상 빠르고 상세한 답변 감사합니다

패키지 설치 에러 ydata-profiling

0

134

2

자세한 설명 부탁드려요 ㅜ

0

200

2

seaborn 라이브러리 호출하였으나 그래프가 안 그려져요

0

310

2

value_counts와 count 차이

0

375

2

안녕하세요 데이터 최신과 관련해서 문의드립니다.

0

217

3

scatterplot질문

0

132

1

강의 화면이 안나옵니다

0

174

2

4분12초 2013년부터 데이터가 없으면 어떻게하나요?..

0

193

2

에러 메시지

1

311

2

그래프 색이 동일하게 나옵니다.

0

328

2

시각화 라이브러리 비교

0

400

2

주피터 노트북 설치

0

399

1

2. 상가 기술통계 아웃풋 자료에서 오류가 납니다

0

233

1

14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류

0

185

1

group by agg function failed 에러

0

696

2

빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.

0

295

2

주피터 노트북 실행 했는데 앞에 *가 생기고 결과가 나오지 않아요

0

372

3

get_string함수에서 문자 'nan'

0

205

1

seaborn X축 시작 지점 조정 질의의 건

0

229

1

14강 distplot 질의

0

299

1

nbextension 설치 및 셋팅 후 적용이 안되는 이슈

0

487

1

corr = df.corr() 입력시 오류

1

383

1

keyword grid_b is not recognized

0

342

1

%ls data 매직커맨드 사용시 한글 깨짐

0

304

1