inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

피처 엔지니어링

2 유형 질문 드립니다

해결된 질문

152

mr.woong0926

작성한 질문수 14

0

안녕하세요!

2유형에서 궁금한 점이 있어 추가 질문드립니다.

 

age 컬럼 같은 경우 음수, 소숫점 등과 같이 명확한 이상치가 보일 경우 결측치를 채우기 전 이상치를 먼저 처리하는게 나을까요?

 

결측치를 평균 혹은 중앙 값으로 채운다고 가정 했을 때, 이상 값이 있으면 성능에 영향을 주지 않을까 싶어서 질문드립니다

 

만약 이상치가 많이 존재하고 이를 처리한다고 하면,

이상치 행을 아예 삭제해야하나요?

아니면 결측치와 마찬가지로 이상치를 제외한 평균, 중앙 값을 계산해서 값을 변경해주는게 좋을까요?

 

오늘도 감사합니다!

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

0

퇴근후딴짓

결론: 문제에서 명시하지 않는다면, 이상치는 처리하지 않는 것으로 하시죠!

간혹 필기에서 학습한 IQR을 작업형2에 적용하는 수험생이 있는데 이건 많은 데이터를 삭제해 오히려 독이 되기도합니다.

 

고민의 흔적이 느껴집니다.

데이터마다 다르겠지만 이상치는 극 소수의 데이터라 데이터에서 제외 전이나 제외 후나 값의 큰차이는 없었어요! 명확한 이상치라면 제거하고 계산하는 것이 맞을 것 같아요!

질문 드립니다.

0

38

2

강의 내용 관련 질문드립니다~

0

34

2

수강 연장 문의

0

32

1

강의자료 일괄 다운로드

0

41

2

수강기간 연장 문의드립니다

0

28

1

list 문제 질문드립니다~

0

28

2

빅분기 실기 12회 재도전

0

39

1

강의 기간 연장 가능여부 검토 요청건

0

30

1

수강기간 연장 문의 드립니다

0

36

2

수강기간 연장 문의드립니다

0

47

2

질문이요

0

51

2

수강기간 연장 문의드립니다.

0

50

2

문제 3-2 질문드립니다

0

43

2

수강기간 연장 문의 드립니다.

0

58

2

변수, 칼럼 , df 구분

0

49

2

수강기간 연장 문의드립니다.

0

49

2

수강기간 연장 문의

0

48

2

수강기간 연장 문의드립니다.

0

40

2

수강기한 연장 문의

0

79

2

수강기간 연장 문의드립니다

0

57

2

결정트리에서 적절한 깊이 선택 후 시각화 과정에서 학습 데이터만 사용하는 이유

0

44

2

수강기간 연장 문의드립니다.

0

70

2

수강연장 문의

0

76

2

수강연장문의

0

53

2