inflearn logo
강의

Course

Instructor

Big Branch Practical 1Day Class(R)

이상치 수업 내용 질문

179

foundme06089197

1 asked

1

선생님꼐서 이상치 수업으로 출력하신 부분이

> print(df_out)

          id rating_count_tot rating_count_ver user_rating

1  284035177          1126879             3594           4

11 284993459           402925              136           4

 

위 결과이고

수업 마지막에 표준편차와 평균을 사용해서도 이상치를 알아낼 수 있다고 하셔서 똑같이 해보았는데요 

 

cond5 = df$rating_count_tot > (stat_mean + 2 * stat_sd)
cond6 = df$rating_count_tot < (stat_mean - 2 * stat_sd)

df_out2 = df[cond5 | cond6, ]

위 처럼 코드를 실행했을 때 결과가

         id rating_count_tot rating_count_ver user_rating

1 284035177          1126879             3594           4

위와 같이 나옵니다.

이게 맞는 결과인지 알고싶어요

그리고 혹시 맞다면 왜 결과가 다르고, 어떨 때  둘을 구분지어서 사용해야 하나요??

 

 

bigdata

Answer 1

1

datadoctor

네네 잘 하고 계십니다.

 

평균과 표준편차를 활용하여 이상치를 필터링 하는 것과

사분위수 기반의 이상치 필터링은 그 이상치 값 기준이 다르기 때문에 다른 결과가 나오는 것입니다.

 

경계값을 별도로 출력해보시면 좀 더 쉽게 이해하실 수 있지 않을까 싶습니다.

 

그리고 이상치 처리는 어떤 상황에 이 방법을 써야한다는 법칙은 없습니다.

 

상황에 맞게 쓰면 되고, 시험에서 제시하는 방법을 사용하면 됩니다.

 

감사합니다.

강의자료요청

0

800

1

강의 자료 요청

0

438

1

mac os ) zip 파일 dataframe 오류

0

660

1

강의자료 요청

0

385

1

강의자료 요청합니다

0

404

1

ModuleNotFoundError : No module named 'mmlspark' - 20230218

0

616

1

강의 자료 요청

0

337

1

강의내용과 교안내용 차이

0

319

1

3,4과목 파일도 요청드립니다~

0

269

1

TrainValidationSplit과 randomSplit 사용 질문

0

393

1

headless chrome 오류 문의

0

1487

1

기출예제세트2 중에서 작업형 제2유형 질문있습니다.

1

230

1

작업형제1유형 2번 문제 질문입니다.

1

224

1

교육자료가 Zip파일로 되어있다고 하는데 찾을 수가 없네요..

1

227

1

cross validation score negative

1

290

1

CV(Cross Validation)

1

188

1

범주형 변수 군집 분석

1

786

1

이상치 관련

1

300

1

[기출 예제 세트 3] 7:50

0

200

1

confusionMatrix 관련 질문

1

288

1

질문입니다

1

207

1

예제1. 작업형 제 1유형

1

236

1

기출 예제 세트 1 - 정답 풀이 中 2번째 문제 풀이 관련(09:00)

1

249

1

분류모델 강의 df[, "Species"]와 df$Species 차이

1

245

2