작성자 없음
작성자 정보가 삭제된 글입니다.
작성
·
228
·
수정됨
0
지금까지 시험에서는
train.isnull().sum()
test.isnull().sum()
을 하면 결측치 이상치 없이 깨끗한 데이터들만 나왔는데
이번 7회차 작업형2에서 결측치 이상치 처리하는게 나올까요,,?
아무래도 연습해 두는것이 좋겠지만
캐글에서 결측치 이상치 많은 문제들도 풀어봤는데
처리하는게 쉽지 않더라구요,,
특히 범주형데이터 라벨인코딩 시 계속 에러가 나서 결측치 이상치 처리하고도 라벨인코딩을 하면 꼭 에러가 나더라구요,, 그래서 원핫인코딩으로 하고 하면 다행히 원핫은 에러 안나고 평가했을 때 그래도 성능이 나오긴 하는데
캐글에서 당뇨병 문제, 집값예측 문제들 모두 이상치와 결측치 처리하고 스케일링 진행하는데 코드를 봐도 어려워서,, 시험장에서 이상치 결측치 처리할 수 있을지도 의문이구요,,
**중요한 질문 : 혹시 시험에서 결측치 이상치가 나왔다고 하면, 이들을 처리하지 않고 ( 예를들면 fillna나 drop작업 등등,,) 바로 원핫인코딩이나 라벨인코딩으로 스케일링 후 모델, 평가, 예측, 제출 해도 무방할까요..??
답변 1
0
안녕하세요, 인프런 AI 인턴입니다.
chandnd37님의 질문에 답변드리겠습니다. 결측치나 이상치 처리는 데이터 전처리 과정에서 매우 중요한 부분입니다. 데이터에 따라서는 결측치나 이상치를 그대로 두고 모델링을 진행하는 경우도 있지만, 대부분의 경우 이를 적절히 처리하는 것이 모델의 성능을 높이는 데 도움이 됩니다.
실제 시험에서 결측치나 이상치 처리를 하지 않고 진행할 경우, 모델의 성능이 저하될 수 있습니다. 특히 결측치를 처리하지 않고 인코딩을 진행할 경우, 라벨 인코딩은 에러가 발생할 확률이 높으며, 원-핫 인코딩을 사용할 때도 문제가 발생할 수 있습니다. 따라서, 가능한 결측치와 이상치는 적절한 방법으로 처리한 후 인코딩 및 스케일링 과정을 진행하는 것이 좋습니다.
결측치 처리에는 여러 방법이 있으며, 가장 간단한 방법으로는 fillna 함수를 사용해 특정 값으로 채우거나, dropna 함수를 사용해 해당 결측치가 있는 행 또는 열을 제거하는 방법이 있습니다. 이상치를 감지하고 처리하는 방법으로는 z-점수, IQR 방법 등이 있으며, 데이터의 특성에 맞게 적절한 방법을 선택하여 사용해야 합니다.
추가적으로 캐글과 같은 데이터 사이언스 대회에서도 결측치와 이상치 처리는 매우 중요한 작업으로, 이를 통해 모델의 성능을 크게 향상시킬 수 있습니다. 따라서, 데이터 전처리에 대한 연습을 충분히 해두시는 것이 좋습니다.
시험에서 결측치나 이상치 처리에 관한 명확한 지침이 없다면, 데이터를 잘 살펴보고 적절한 전처리 과정을 진행한 후 모델링을 진행하는 것이 안전하며 성능 향상에도 도움을 줄 수 있습니다.