이상치 수업 내용 질문

Question

선생님꼐서 이상치 수업으로 출력하신 부분이 > print(df_out) id rating_count_tot rating_count_ver user_rating 1 284035177 1126879 3594 4 11 284993459 402925 136 4 위 결과이고 수업 마지막에 표준편차와 평균을 사용해서도 이상치를 알아낼 수 있다고 하셔서 똑같이 해보았는데요 cond5 = df $ rating_count_tot > ( stat_mean + 2 * stat_sd ) cond6 = df $ rating_count_tot < ( stat_mean - 2 * stat_sd ) df_out2 = df [ cond5 | cond6 , ] 위 처럼 코드를 실행했을 때 결과가 id rating_count_tot rating_count_ver user_rating 1 284035177 1126879 3594 4 위와 같이 나옵니다. 이게 맞는 결과인지 알고싶어요 그리고 혹시 맞다면 왜 결과가 다르고, 어떨 때 둘을 구분지어서 사용해야 하나요??

datadoctor · Answer

네네 잘 하고 계십니다. 평균과 표준편차를 활용하여 이상치를 필터링 하는 것과 사분위수 기반의 이상치 필터링은 그 이상치 값 기준이 다르기 때문에 다른 결과가 나오는 것입니다. 경계값을 별도로 출력해보시면 좀 더 쉽게 이해하실 수 있지 않을까 싶습니다. 그리고 이상치 처리는 어떤 상황에 이 방법을 써야한다는 법칙은 없습니다. 상황에 맞게 쓰면 되고, 시험에서 제시하는 방법을 사용하면 됩니다. 감사합니다.