• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

이상치 수업 내용 질문

22.04.18 18:03 작성 조회수 91

1

선생님꼐서 이상치 수업으로 출력하신 부분이

> print(df_out)

          id rating_count_tot rating_count_ver user_rating

1  284035177          1126879             3594           4

11 284993459           402925              136           4

 

위 결과이고

수업 마지막에 표준편차와 평균을 사용해서도 이상치를 알아낼 수 있다고 하셔서 똑같이 해보았는데요 

 

cond5 = df$rating_count_tot > (stat_mean + 2 * stat_sd)
cond6 = df$rating_count_tot < (stat_mean - 2 * stat_sd)

df_out2 = df[cond5 | cond6, ]

위 처럼 코드를 실행했을 때 결과가

         id rating_count_tot rating_count_ver user_rating

1 284035177          1126879             3594           4

위와 같이 나옵니다.

이게 맞는 결과인지 알고싶어요

그리고 혹시 맞다면 왜 결과가 다르고, 어떨 때  둘을 구분지어서 사용해야 하나요??

 

 

답변 1

답변을 작성해보세요.

1

네네 잘 하고 계십니다.

 

평균과 표준편차를 활용하여 이상치를 필터링 하는 것과

사분위수 기반의 이상치 필터링은 그 이상치 값 기준이 다르기 때문에 다른 결과가 나오는 것입니다.

 

경계값을 별도로 출력해보시면 좀 더 쉽게 이해하실 수 있지 않을까 싶습니다.

 

그리고 이상치 처리는 어떤 상황에 이 방법을 써야한다는 법칙은 없습니다.

 

상황에 맞게 쓰면 되고, 시험에서 제시하는 방법을 사용하면 됩니다.

 

감사합니다.