inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

공공데이터로 파이썬 데이터 분석 시작하기

[15/20] tidy data 를 이해하고 pandas 의 melt 로 두 개의 데이터셋을 같은 형태로 만들기

결측치를 보는 이유가 궁금합니다.

254

jj

작성한 질문수 9

1

선생님 안녕하세요 

2015년 이전의 데이터를 df_first 로 담고 이 과정을 melt 로 녹이기 이전에 df_first.info() 를 통해 first data의 정보를 보고 결측치의 유무를 봐야하는 이유가 무엇인지 궁금합니다.

그냥 df_first_head 와 df_last의 head 만 보고 컬럼을 맞춰주어 비교하면 안되는것인지요?

 

numpy pandas python

답변 1

0

박조은

안녕하세요.

질문 주신 것처럼 결측치를 확인하지 않고 형태만 확인하고 melt 로 녹여도 상관은 없습니다.

데이터 전처리를 할 때 결측치가 있다면 melt 전 후에 결측치 처리를 할 수 있을거에요.

질문 주신것처럼 어떤 형태인지 확인하는게 더 중요한 것은 맞습니다.

그래서 여기에서 결측치 유무를 확인한 것은 확인용입니다.

0

jj

어떤 형태인지 확인만 하고 melt 로 녹여도 되겠다는 말은 이해했습니다!

선생님 그런데 결측치값을 찾는 이유가 데이터를 통계를 낼때 이상치 처럼 결과에 영향을 주기 때문에 찾으려고 하는것인가요? 결측치를 처리하는 이유가 궁금합니다

0

박조은

안녕하세요. 여기에서는 결측치를 확인만 했는데요. 

결측치가 공백이나 "-" 등의 문자로 표현되기도 하는데 이렇게 되어 있으면 제대로 계산을 할 수 없기 때문에 수치 데이터로 변경해 주어야 하는데 문자로 인해 변경되지 않을때 강제로 변경해 주기도 합니다. df_last 에서는 수치 데이터가 object 로 되어 있어서 변환을 하면서 공백 문자가 결측치로 처리되는 것을 보았었는데 이와 마찬가지로 df_first 에도 결측치가 있는 확인해 봤습니다.

그리고 df_first 에는 결측치가 없고 수치형태로 되어 있어서 별다른 처리 없이 실습을 진행했습니다.

0

jj

결측치가 수치데이터로 표현이 안되기 때문에 그걸 의도적으로 바꿔주어서 통계를 낼때,  오차를 줄이기 위함이겠군요.. 답변 감사드립니다 :)

패키지 설치 에러 ydata-profiling

0

134

2

자세한 설명 부탁드려요 ㅜ

0

200

2

seaborn 라이브러리 호출하였으나 그래프가 안 그려져요

0

310

2

value_counts와 count 차이

0

376

2

안녕하세요 데이터 최신과 관련해서 문의드립니다.

0

217

3

scatterplot질문

0

132

1

강의 화면이 안나옵니다

0

174

2

4분12초 2013년부터 데이터가 없으면 어떻게하나요?..

0

193

2

에러 메시지

1

311

2

그래프 색이 동일하게 나옵니다.

0

328

2

시각화 라이브러리 비교

0

400

2

주피터 노트북 설치

0

399

1

2. 상가 기술통계 아웃풋 자료에서 오류가 납니다

0

233

1

14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류

0

185

1

group by agg function failed 에러

0

696

2

빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.

0

295

2

주피터 노트북 실행 했는데 앞에 *가 생기고 결과가 나오지 않아요

0

372

3

get_string함수에서 문자 'nan'

0

205

1

seaborn X축 시작 지점 조정 질의의 건

0

229

1

14강 distplot 질의

0

299

1

nbextension 설치 및 셋팅 후 적용이 안되는 이슈

0

487

1

corr = df.corr() 입력시 오류

1

383

1

keyword grid_b is not recognized

0

342

1

%ls data 매직커맨드 사용시 한글 깨짐

0

304

1