inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

공공데이터로 파이썬 데이터 분석 시작하기

[3/15] missingno 라이브러리로 결측치 시각화 하기

전처리 필요성에 대해서 질문드립니다.

해결된 질문

237

드가자

작성한 질문수 12

1

안녕하십니까.

저는 현재 파이썬으로 공공빅데이터 분석 과정을 수강 중에 있습니다. 가장 처음 실시하였던 서울시 아파트 값 데이터 분석에서는 2개의 엑셀 파일에 있는 결측치를 다른 값으로 변환하여 전처리 과정을 거쳤습니다. 

하지만 이번 서울시 상가 빅데이터 분석에서는 이유에 대한 별도의 언급이 결측치를 그대로 두고 계속 분석을 진행하십니다.

데이터 분석의 거시적인 면을 대략적으로 이해하신 강사님이라면 전처리의 필요성 유무를 쉽게 판단하시지만 아직 초보자인 저로써는 그 필요성에 대한 판단을 할 역량이 부족합니다.

간략하게라도 전처리가 필요한가에 대한 여부를 어떤시각으로 추측하거나 판단하시는지 알려주시길 부탁드립니다.

김영목 드림

전처리 python numpy pandas

답변 1

0

박조은

안녕하세요. 김영목님

결측치 처리에 유무에 대한 판단에 대해 고민이 많으셨겠어요.

결측치 처리에 대해서는 해당 데이터가 분석에 필요하다면 결측치 처리를 하나, 상권 분석 데이터에서는 결측치를 사용하지 않아 따로 처리를 하지 않았습니다.

데이터 분석을 하다보면 결측치를 종종 마주하게 되는데 결측치를 다룰지의 여부는 해당 데이터에 대한 활용성을 보시면 됩니다.

아파트 분양가격의 경우 분양가격을 분석하기 때문에 결측치가 많다면 왜 결측치가 많은지 그대로 쓸 것인지 채울것인지를 고민하게 되는데 결측치 처리 유무는 데이터 전처리 경험도 도움이 되겠지만 도메인에 대한 경험이나 지식이 더 중요합니다.

아파트분양가격 분석에서는 분양가격이 있어야지 분양가격의 상승이나 하락을 분석해 볼 수 있다고 생각해 볼 수 있을 것이며, 상권정보에서 동정보, 층정보, 호정보가 필요하다면 이 또한 전처리가 필요하겠지만 해당 데이터에서는 중요한 데이터가 아니기 때문에 사용하지 않았습니다.

그래서 결측치 처리 유무에 대해서는 왜 결측치가 생겼는지 또 해당 분야에서 그 데이터가 얼마나 중요한 데이터인지를 고민해 보는 과정이 필요합니다.

패키지 설치 에러 ydata-profiling

0

122

2

자세한 설명 부탁드려요 ㅜ

0

179

2

seaborn 라이브러리 호출하였으나 그래프가 안 그려져요

0

291

2

value_counts와 count 차이

0

347

2

안녕하세요 데이터 최신과 관련해서 문의드립니다.

0

206

3

scatterplot질문

0

123

1

강의 화면이 안나옵니다

0

166

2

4분12초 2013년부터 데이터가 없으면 어떻게하나요?..

0

190

2

에러 메시지

1

305

2

그래프 색이 동일하게 나옵니다.

0

312

2

시각화 라이브러리 비교

0

387

2

주피터 노트북 설치

0

391

1

2. 상가 기술통계 아웃풋 자료에서 오류가 납니다

0

228

1

14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류

0

179

1

group by agg function failed 에러

0

689

2

빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.

0

289

2

주피터 노트북 실행 했는데 앞에 *가 생기고 결과가 나오지 않아요

0

366

3

get_string함수에서 문자 'nan'

0

201

1

seaborn X축 시작 지점 조정 질의의 건

0

215

1

14강 distplot 질의

0

290

1

nbextension 설치 및 셋팅 후 적용이 안되는 이슈

0

481

1

corr = df.corr() 입력시 오류

1

375

1

keyword grid_b is not recognized

0

338

1

%ls data 매직커맨드 사용시 한글 깨짐

0

296

1