• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

결측치를 구하는 이유

22.02.09 17:35 작성 조회수 236

2

선생님 안녕하세요.

결측치를 구하는 이유가 무엇인가요?

컬럼이 39개나 되는데, 그중에 결측치가 많은 컬럼들은 제거하고 분석을 하기 위해서 하는 것인가요?

 

답변 1

답변을 작성해보세요.

0

안녕하세요.

어떤 데이터를 분석하든 데이터를 불러오면 기본적으로 보는 정보들이 있습니다.

shape를 통한 행과 열의 수라든지 info() 를 통해 데이터를 요약해 본다든지

describe()를 통해 기술 통계를 보고 

isnull() 을 통해 결측치 여부를 봅니다. 이렇게 데이터가 전체적으로 어떻게 구성되었는지 살펴보는 과정을 EDA 라고 하며 Exploratory Data Analysis, 탐색적 데이터 분석 이라고 부릅니다.

결측치가 많은 변수가 있다면 해당 변수를 사용할지 여부를 판단해 볼 수 있으며

또 해당 결측치가 왜 발생했는지 조사해 볼 수 있겠죠.

실습에서도 EDA 의 기본 과정으로 결측치를 보았습니다.

결측치가 많은 변수는 분석에 꼭 필요하지 않다면 제거를 해볼 수도 있을것이고요.

데이터의 용량이 커서 메모리를 많이 차지 한다거나 하면 사용하지 않는 변수를 제거해서 메모리를 효율적으로 사용해 볼 수도 있을거에요.

jj님의 프로필

jj

질문자

2022.02.10

아아 EDA 과정을 위해서, 데이터를 탐색해 보는 과정이었군요.

데이터를 분석하기 전에, 이러한 과정을 통해서 데이터가 어떻게 구성되었는지 살펴보는 과정이 중요한 것 같아요.

오늘도 하나 더 배우고 가는 것 같아요 ㅎㅎ 감사합니다 선생님!

아직 부족하지만, 배운것을 활용해서 다른 데이터 셋을 활용하여서 seaborn 을 이용해서 시각화를 하는 과정을 혼자 연습 해 보았는데, 강의를 보면서 따라하다가 혼자하려고 하니 처음에 데이터 경로설정 하는 것도 중요하겠구나 생각했었고,

그때는 EDA 과정을 제대로 진행하지 않았었는데 앞으로는 데이터 분석을 위해서는 필수적인 과정이 될것 같아요.

데이터 분석 분야에 대해 관심이 있고, 이 분야에 대해 궁금한게 많은데 개인적인 질문도 받아주실 수 있으실까요??

안녕하세요.

연습을 많이 해보는게 가장 좋은 방법입니다. 시행착오를 겪으면서 성장할수 있으니 계속 화이팅입니다!

수업에 관련된 내용은 질의응답을 통해 받고 있습니다.

개인적인 질문은 인프런 멘토링을 신청해 주세요!

jj님의 프로필

jj

질문자

2022.02.10

네 항상 빠르고 상세한 답변 감사합니다