인프런 커뮤니티 질문&답변

mr.woong0926님의 프로필 이미지
mr.woong0926

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

피처 엔지니어링

2유형 질문드립니다!

해결된 질문

작성

·

118

·

수정됨

0

안녕하세요!

2유형 강의 수강 중 궁금한 점이 생겨서 질문드립니다!

 

  1. IQR 을 사용하여 이상치를 확인 했을 때, 이상치가 전체 행 대비 적게 있을 경우 해당 행 자체를 삭제해도 무방한가요?

     

     

  2. 스케일링 시, 이상치가 있을 경우 로버스트 스케일링을 사용하는게 좋다라고 하셨는데 이상치가 있는 컬럼에 대해서만 로버스트 스케일링으로 진행하고, 이상치가 없는 컬럼에 대해서는 MinMax 이나 Z-Score 를 사용하여 구분해서 각각 스케일링 하는게 좋은가요?

 

2-2. 만약 이상치가 없는 경우에도 로버스트 스케일링을 사용할 경우 다른 스케일링 방식에 비해 성능이 떨어지나요?

 

감사합니다~!

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

작업형2 에서

이상치는 문제에서 요구하거나, 또는 누가 봐도 명확한 이상치가 아니라면 작업하지 않는 것을 추천해요!

작업형2에서 제공하는 데이터가 작다보니 IQR로 제거 시, 생각보다 많은 데이터가 삭제될 수 있어 조심스럽네요. 오히려 학습데이터가 작아 학습이 제대로 되지 않을 수 있거든요!

(아직까진 작업형2가 인코딩만으로도 40점이 충분한 난이도였어요 )

 

  1. 스케일링 3가지를 알려드렸어요. 필수는 아니고 선택입니다.

하나만 적용해봐도 좋고 3가지 모두 사용가능하다면 어떤 것을 적용해야 하는지는 검증데이터를 통해 평가지표를 보고 판단하면 됩니다. 성능 향상 여부는 데이터에 따라 다르므로 알 수 없어요.💪

 

mr.woong0926님의 프로필 이미지
mr.woong0926

작성한 질문수

질문하기