인프런 커뮤니티 질문&답변

zzzzz님의 프로필 이미지
zzzzz

작성한 질문수

캐글 Advanced 머신러닝 실전 박치기

previous_application 데이터 가공/모델 학습/평가 null값 관련 질문있습니다.

작성

·

111

0

previous_application 데이터 가공/모델 학습/평가-previous_application 주요 피처 EDA 수행 - 연속형 값 분석 8분 23초에 null값이 5000천개인데 의미를 찾기 어렵다고 하셨는데요

혹시 의미 찾기 어렵다는 기준이 따로 있는건가요?

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

의미 찾기 어렵다는 기준이 따로 있는 것은 아닙니다만,

해당 컬럼의 경우 이자율에 관련된 속성으로 보입니다만, 너무 많은 데이터가 Null입니다(전체 167만건 중에 5981건만 Not null 입니다).

전체의 99.5% 이상의 데이터가 해당 속성값으로 Null입니다. 그렇기 때문에 전체 모델에 끼치는 영향에 대한 의미를 찾기가 어렵다는 의미로 해석해 주시면 될 것 같습니다.

물론 Null값이 많다고 의미를 무조건 찾기가 어려운건 아닙니다. 가령 Null과 Not Null인 경우에 확실한 대비가 있다면 모르겠지만, 그렇지도 않아서, 해당 속성값으로 타겟에 특정한 영향을 미치는 의미를 찾기가 어렵다는 얘기였습니다.

감사합니다.

zzzzz님의 프로필 이미지
zzzzz

작성한 질문수

질문하기