train, test 병합 후 결측치 또는 이상치 처리 관련문의

Question

안녕하세요 강사님

train, test 세트를 병합 후, 결측치 또는 이상치 처리 때 문의 드릴게 있습니다.
코딩 프로세스를 보면,
train,test 병합 후, TARGET isnull 인경우 app_test 로 설정하하는데
만약 이 과정 전, 결측치 처리 하는데서 결측치를 처리하기 위해, dropna를 쓰게 된다면,
최종적으로 test 세트 row를 제거 할 수도 있습니다(test 세트에 null이 포함 된 경우)

이는 즉, 정말 예측해야 하는 test 세트의 개수와 맞지 않는다는 뜻입니다.

또는, train, test 병합 전, train 데이터에만 outlier 를 제거한 후에
test와 병합 한다면, test에는 outlier가 제거되지 않은 데이터들이 있을 수 있기 때문에,
문제가 있을 것 같습니다.

강의에서는 fillna(-999) 를 하기 때문에 문제가 없다지만,
실제로 결측치나 아웃라이어는 어떻게 처리해야 하나요?

Answer

안녕하십니까,

실습 코드의 전체적인 프로세스상 결측치는 Feature engineering 중간 과정중에 하지 마시고 가장 마지막에 제거해 주시면 될 것 같습니다.

그리고 "결측치를 처리하기 위해, dropna를 쓰게 된다면,

최종적으로 test 세트 row를 제거 할 수도 있습니다(test 세트에 null이 포함 된 경우)" 라고 하셨는데, 이 의미는 dropna를 row 단위로 하신다는 말씀이시죠?

그렇다면 test 세트 row를 지우셔도 됩니다. 단 여기서는 kaggle competition이기 때문에 test 세트 row를 지우시면 안됩니다. kaggle에서 채점을 전체 row 단위로 하기 때문입니다. 보통 실제 업무에서 test 세트에 적합한 값이 없다고 판단되면 지우셔도 상관없습니다.

다만 결측치를 삭제할 때 컬럼 단위로 해당 컬럼의 매우 많은 값이 Null이어서 아예 컬럼 단위로 삭제하는 경우는 있습니다. 결측치 삭제는 보통 이런 컬럼 단위 삭제를 얘기합니다.

outlier는 조금 상황이 더 복잡할 수 있습니다. 기본적으로 학습데이터와 테스트 데이터의 모든 outlier를 삭제해 주면 좋습니다. 다만 테스트 데이터에 outlier가 발생할 수 있는 경우라면(이런 경우라면 더 이상 outlier가 아닐 수 있습니다) 학습 데이터에 outlier를 유지한 경우와 outlier를 삭제한 경우 각각의 경우를 모두 학습 모델로 만든 다음에 어떤 것이 더 좋은지 테스트 데이터로 판단해 봐야 합니다.

김성민

train, test 병합 후 결측치 또는 이상치 처리 관련문의

이 글과 비슷한 Q&A

hue를 사용할 때

q1_cols를 작성하는 부분에서 궁금한 점이 있습니다.

안녕하세요 교수님

가중치 초기화(Weight Initialization) 질문입니다.