• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    해결됨

전처리 필요성에 대해서 질문드립니다.

21.05.03 12:23 작성 조회수 114

1

안녕하십니까.

저는 현재 파이썬으로 공공빅데이터 분석 과정을 수강 중에 있습니다. 가장 처음 실시하였던 서울시 아파트 값 데이터 분석에서는 2개의 엑셀 파일에 있는 결측치를 다른 값으로 변환하여 전처리 과정을 거쳤습니다. 

하지만 이번 서울시 상가 빅데이터 분석에서는 이유에 대한 별도의 언급이 결측치를 그대로 두고 계속 분석을 진행하십니다.

데이터 분석의 거시적인 면을 대략적으로 이해하신 강사님이라면 전처리의 필요성 유무를 쉽게 판단하시지만 아직 초보자인 저로써는 그 필요성에 대한 판단을 할 역량이 부족합니다.

간략하게라도 전처리가 필요한가에 대한 여부를 어떤시각으로 추측하거나 판단하시는지 알려주시길 부탁드립니다.

김영목 드림

답변 1

답변을 작성해보세요.

0

안녕하세요. 김영목님

결측치 처리에 유무에 대한 판단에 대해 고민이 많으셨겠어요.

결측치 처리에 대해서는 해당 데이터가 분석에 필요하다면 결측치 처리를 하나, 상권 분석 데이터에서는 결측치를 사용하지 않아 따로 처리를 하지 않았습니다.

데이터 분석을 하다보면 결측치를 종종 마주하게 되는데 결측치를 다룰지의 여부는 해당 데이터에 대한 활용성을 보시면 됩니다.

아파트 분양가격의 경우 분양가격을 분석하기 때문에 결측치가 많다면 왜 결측치가 많은지 그대로 쓸 것인지 채울것인지를 고민하게 되는데 결측치 처리 유무는 데이터 전처리 경험도 도움이 되겠지만 도메인에 대한 경험이나 지식이 더 중요합니다.

아파트분양가격 분석에서는 분양가격이 있어야지 분양가격의 상승이나 하락을 분석해 볼 수 있다고 생각해 볼 수 있을 것이며, 상권정보에서 동정보, 층정보, 호정보가 필요하다면 이 또한 전처리가 필요하겠지만 해당 데이터에서는 중요한 데이터가 아니기 때문에 사용하지 않았습니다.

그래서 결측치 처리 유무에 대해서는 왜 결측치가 생겼는지 또 해당 분야에서 그 데이터가 얼마나 중요한 데이터인지를 고민해 보는 과정이 필요합니다.