인프런 커뮤니티 질문&답변

bbcc8417님의 프로필 이미지
bbcc8417

작성한 질문수

캐글 Advanced 머신러닝 실전 박치기

application 데이터 세트 기본 분석과 시각화 - 02

질문드립니다.

작성

·

151

0

한쪽으로 데이터가 너무 스큐되어 있어서 

cond_amt=df[column]<500000 이렇게 필터링 해주었는데 만약 500000이상일때 중요한 데이터가 있어서 학습 못시키는 경우도 있는가요??

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

음, 질문을 제가 잘 이해했는지 모르겠습니다만, 

cond_amt=df[column]<500000 으로 한 이유는 outlier성 데이터는 제외하고 분포도를 시각화 해보고자 한 것입니다. 학습은 이후 강의에서도 보시겠지만, 필터링 하지 않고 전체 데이터를 다 사용합니다. 

감사합니다. 

bbcc8417님의 프로필 이미지
bbcc8417

작성한 질문수

질문하기