previous_application 데이터 가공/모델 학습/평가 null값 관련 질문있습니다.
149
작성한 질문수 192
previous_application 데이터 가공/모델 학습/평가-previous_application 주요 피처 EDA 수행 - 연속형 값 분석 8분 23초에 null값이 5000천개인데 의미를 찾기 어렵다고 하셨는데요
혹시 의미 찾기 어렵다는 기준이 따로 있는건가요?
답변 1
0
안녕하십니까,
의미 찾기 어렵다는 기준이 따로 있는 것은 아닙니다만,
해당 컬럼의 경우 이자율에 관련된 속성으로 보입니다만, 너무 많은 데이터가 Null입니다(전체 167만건 중에 5981건만 Not null 입니다).
전체의 99.5% 이상의 데이터가 해당 속성값으로 Null입니다. 그렇기 때문에 전체 모델에 끼치는 영향에 대한 의미를 찾기가 어렵다는 의미로 해석해 주시면 될 것 같습니다.
물론 Null값이 많다고 의미를 무조건 찾기가 어려운건 아닙니다. 가령 Null과 Not Null인 경우에 확실한 대비가 있다면 모르겠지만, 그렇지도 않아서, 해당 속성값으로 타겟에 특정한 영향을 미치는 의미를 찾기가 어렵다는 얘기였습니다.
감사합니다.
sql사용
0
58
2
좋은 강의 감사드립니다.
0
82
2
8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문
0
261
2
사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다
0
621
1
안녕하세요 선생님
0
238
1
권철민교수님 진심으로 감사드립니다.
0
322
1
안녕하세요 선생님
0
358
1
# credit_card_balance 데이터셋 피쳐엔지니어링
0
273
1
초거대 데이터셋을 Submission하려면?
0
194
1
Library 관련 질문
0
359
3
최적화 함수 에러
0
598
4
LightGBM Iteration관련
0
433
2
안녕하세요 교수님 vm 관련해서 질문이 있습니다.
0
208
1
코드를 실행했는데 오류가 발생합니다
0
2000
2
bayes_opt 회귀 모델에 적용하려면..
0
270
1
타겟값의 로그변환에 대해서
0
786
1
아나콘다 환경설정
0
465
1
깃허브 주소 문의드립니다.
0
364
1
손실함수에 대한 질문
0
351
1
card_bal 데이터셋 시각화 관련 질문입니다
0
237
1
LGBM null값 처리에 관해 질문있습니다
0
546
1
컬럼 관련 질문
0
283
1
히스토그램 x 값
0
370
1
n_iter 횟수 넘음 질문
0
500
2





