• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

결측치를 보는 이유가 궁금합니다.

22.01.20 23:39 작성 조회수 180

1

선생님 안녕하세요 

2015년 이전의 데이터를 df_first 로 담고 이 과정을 melt 로 녹이기 이전에 df_first.info() 를 통해 first data의 정보를 보고 결측치의 유무를 봐야하는 이유가 무엇인지 궁금합니다.

그냥 df_first_head 와 df_last의 head 만 보고 컬럼을 맞춰주어 비교하면 안되는것인지요?

 

답변 1

답변을 작성해보세요.

0

안녕하세요.

질문 주신 것처럼 결측치를 확인하지 않고 형태만 확인하고 melt 로 녹여도 상관은 없습니다.

데이터 전처리를 할 때 결측치가 있다면 melt 전 후에 결측치 처리를 할 수 있을거에요.

질문 주신것처럼 어떤 형태인지 확인하는게 더 중요한 것은 맞습니다.

그래서 여기에서 결측치 유무를 확인한 것은 확인용입니다.

jj님의 프로필

jj

질문자

2022.01.21

어떤 형태인지 확인만 하고 melt 로 녹여도 되겠다는 말은 이해했습니다!

선생님 그런데 결측치값을 찾는 이유가 데이터를 통계를 낼때 이상치 처럼 결과에 영향을 주기 때문에 찾으려고 하는것인가요? 결측치를 처리하는 이유가 궁금합니다

안녕하세요. 여기에서는 결측치를 확인만 했는데요. 

결측치가 공백이나 "-" 등의 문자로 표현되기도 하는데 이렇게 되어 있으면 제대로 계산을 할 수 없기 때문에 수치 데이터로 변경해 주어야 하는데 문자로 인해 변경되지 않을때 강제로 변경해 주기도 합니다. df_last 에서는 수치 데이터가 object 로 되어 있어서 변환을 하면서 공백 문자가 결측치로 처리되는 것을 보았었는데 이와 마찬가지로 df_first 에도 결측치가 있는 확인해 봤습니다.

그리고 df_first 에는 결측치가 없고 수치형태로 되어 있어서 별다른 처리 없이 실습을 진행했습니다.

jj님의 프로필

jj

질문자

2022.01.23

결측치가 수치데이터로 표현이 안되기 때문에 그걸 의도적으로 바꿔주어서 통계를 낼때,  오차를 줄이기 위함이겠군요.. 답변 감사드립니다 :)