이상치 처리 안해도 되는건가요

Question

강사님 안녕하세요 데이터셋을 다루는 중에 이상치가 보여서 train 데이터는 전처리했는데, 혹시 test 데이터도 이상치가 있더라도 따로 처리하지 않고 그대로 두는 게 더 나은 걸까요? 그리고 현재 데이터셋으로 모델 평가했을 때 RMSE가 778 정도 나오는데, 이 정도면 성능이 괜찮은 걸까요? train.loc[1659,'총구매액'] = 0 train.loc[3174,'총구매액'] = 0 train.loc[3488,'총구매액']= 0 train.loc[1659,'최대구매액'] = 0 # print(train[(train['총구매액']<0) | (train['최대구매액']<0)]) print(test[test['최대구매액']<0]) #2 test.loc[579,'최대구매액'] = 0 test.loc[1177,'최대구매액'] = 0 print(test[test['최대구매액']<0]) 감사합니다

퇴근후딴짓 · Answer

네 이상치 처리 하지 마시죠 우리가 도메인에 대한 전문지식이 없다보니 이상치는 이유가 있는 데이터일 수도 있습니다. 예를 들면, 환불 등요. 따라서 문제에서 이거 이상치다 하지 않는다면 처리하지 마시죠! 화이팅!

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 변재현님 질문 감사드립니다. 빅데이터 분석에서 이상치 처리는 데이터 전처리의 중요한 부분입니다. 특히 총구매액 과 최대구매액 과 같은 지표에서 음수 값이 나타나는 경우, 이는 해당 도메인의 특정한 상황에 의해 발생할 수 있는 정상적인 값인지 검토해야 합니다. 1. 이상치에 대한 처리 방법 train 데이터: 이상치를 이미 0으로 처리한 것을 보니, 비즈니스 로직에 기반한 처리를 한 것 같습니다. 이는 적절한 처리가 될 수 있으며, 다른 분석자들의 경험이나 도메인 지식에 기반하여 조정하신 것이라면 유효할 수 있습니다. test 데이터: 일반적으로 테스트 데이터는 모델의 일반화 성능을 측정하는 데 사용되기 때문에, 무분별한 전처리는 피하는 것이 좋습니다. 실제 도메인에서는 이상치가 발생할 수 있으므로, 이를 모델이 어떻게 처리하는지 보는 것이 중요합니다. 만약 이상치가 모델 성능에 부정적인 영향을 미친다면, train 데이터에서 사용한 처리 방법을 그대로 적용해보는 것이 좋을 수 있습니다. 2. 모델 성능 평가 RMSE (Root Mean Square Error)는 예측 값과 실제 값 간의 차이를 측정하는 데 사용되며, 값이 클수록 모델의 예측 성능이 낮다는 것을 의미합니다. RMSE가 778이라고 하셨는데, 이 수치가 높은지 여부는 데이터의 특성과 스케일에 따라 다를 수 있습니다. 일반적으로 RMSE를 해석할 때는 다음과 같은 점을 고려합니다: 데이터 의 특성 및 범위: 데이터의 값이 매우 크거나 작다면, RMSE도 상대적으로 클 수 있습니다. 모델의 복잡성 및 데이터 분포: 복잡한 모델이나 데이터의 분포가 다양할 경우, RMSE 비교 시 이러한 특성에 맞추어 다양한 모델을 평가 및 조정하는 것이 필요합니다. 다음 링크에서 유사한 문제에 대한 답변을 확인하실 수 있습니다: - 데이터 이상치 파악 - 예시문제 작업형2 질문 있습니다!! - 예시문제 작업형2에서의 이상치 처리 이 게시물에서는 이상치 처리의 중요성 및 여러 다양한 전처리 방법이 논의됩니다. 이는 모델 성능 개선을 위한 좋은 출발점이 될 수 있습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.