강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

bbcc8417님의 프로필 이미지
bbcc8417

작성한 질문수

캐글 Advanced 머신러닝 실전 박치기

application 데이터 세트 기본 분석과 시각화 - 02

질문드립니다.

작성

·

176

0

한쪽으로 데이터가 너무 스큐되어 있어서 

cond_amt=df[column]<500000 이렇게 필터링 해주었는데 만약 500000이상일때 중요한 데이터가 있어서 학습 못시키는 경우도 있는가요??

퀴즈

Home Credit Default Risk 예측 모델 구축의 주요 목표는 무엇일까요?

고객의 소득 수준 예측

대출 상품 추천

고객의 채무 불이행(Default) 가능성 예측

월별 대출 상환 금액 예측

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

음, 질문을 제가 잘 이해했는지 모르겠습니다만, 

cond_amt=df[column]<500000 으로 한 이유는 outlier성 데이터는 제외하고 분포도를 시각화 해보고자 한 것입니다. 학습은 이후 강의에서도 보시겠지만, 필터링 하지 않고 전체 데이터를 다 사용합니다. 

감사합니다. 

bbcc8417님의 프로필 이미지
bbcc8417

작성한 질문수

질문하기