작성
·
141
1
선생님꼐서 이상치 수업으로 출력하신 부분이
> print(df_out)
id rating_count_tot rating_count_ver user_rating
1 284035177 1126879 3594 4
11 284993459 402925 136 4
위 결과이고
수업 마지막에 표준편차와 평균을 사용해서도 이상치를 알아낼 수 있다고 하셔서 똑같이 해보았는데요
위 처럼 코드를 실행했을 때 결과가
id rating_count_tot rating_count_ver user_rating
1 284035177 1126879 3594 4
위와 같이 나옵니다.
이게 맞는 결과인지 알고싶어요
그리고 혹시 맞다면 왜 결과가 다르고, 어떨 때 둘을 구분지어서 사용해야 하나요??
답변 1
1
네네 잘 하고 계십니다.
평균과 표준편차를 활용하여 이상치를 필터링 하는 것과
사분위수 기반의 이상치 필터링은 그 이상치 값 기준이 다르기 때문에 다른 결과가 나오는 것입니다.
경계값을 별도로 출력해보시면 좀 더 쉽게 이해하실 수 있지 않을까 싶습니다.
그리고 이상치 처리는 어떤 상황에 이 방법을 써야한다는 법칙은 없습니다.
상황에 맞게 쓰면 되고, 시험에서 제시하는 방법을 사용하면 됩니다.
감사합니다.