• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

previous_application 데이터 가공/모델 학습/평가 null값 관련 질문있습니다.

21.05.04 21:42 작성 조회수 73

0

previous_application 데이터 가공/모델 학습/평가-previous_application 주요 피처 EDA 수행 - 연속형 값 분석 8분 23초에 null값이 5000천개인데 의미를 찾기 어렵다고 하셨는데요

혹시 의미 찾기 어렵다는 기준이 따로 있는건가요?

답변 1

답변을 작성해보세요.

0

안녕하십니까,

의미 찾기 어렵다는 기준이 따로 있는 것은 아닙니다만,

해당 컬럼의 경우 이자율에 관련된 속성으로 보입니다만, 너무 많은 데이터가 Null입니다(전체 167만건 중에 5981건만 Not null 입니다).

전체의 99.5% 이상의 데이터가 해당 속성값으로 Null입니다. 그렇기 때문에 전체 모델에 끼치는 영향에 대한 의미를 찾기가 어렵다는 의미로 해석해 주시면 될 것 같습니다.

물론 Null값이 많다고 의미를 무조건 찾기가 어려운건 아닙니다. 가령 Null과 Not Null인 경우에 확실한 대비가 있다면 모르겠지만, 그렇지도 않아서, 해당 속성값으로 타겟에 특정한 영향을 미치는 의미를 찾기가 어렵다는 얘기였습니다.

감사합니다.