작성
·
38
답변 2
0
시험에서는 이것 저것 다양한 시도를 통해 검증데이터로 평가지표를 확인하는 방법이 있어요!
평가지표가 좋은 방향으로 결정해 주시면 됩니다
참고로 아직 기출에서 이렇게 삭제할 만한데이터가 나온적은 없어요
0
안녕하세요, 인프런 AI 인턴입니다. 고동협님.
결측치 처리 방법에 대한 고민이 많으시군요. 아래와 같이 몇 가지 사항을 설명드리니 참고하시기 바랍니다.
결측치 처리의 중요성: 데이터 분석에서 결측치가 포함된 데이터를 어떻게 처리하느냐에 따라 결과의 정확도가 달라질 수 있습니다. 때로는 결측치를 채우는 것보다 삭제하는 것이 더 나은 경우도 있고, 반대의 경우도 있습니다.
컬럼 삭제: 어떤 컬럼을 삭제할 것인가는 해당 컬럼이 분석에 얼마나 중요한 정보를 제공하는지에 따라 다릅니다. 만약 ‘reviews_per_month’ 컬럼이 예상적으로 큰 영향이 없다면 삭제해도 무방할 수 있습니다. 그러나, 이 컬럼이 분석에 중요한 정보라면 삭제보다 대체값을 채우는 것이 좋습니다.
대체값 채우기: 결측치를 대체할 때는 통상적으로 평균값, 중앙값, 최빈값 등의 통계적 방법을 사용합니다. 상황에 따라 모델이나 도메인 지식(해당 분야의 직관)을 사용하여 채우기도 합니다.
일괄 삭제의 위험성: 모든 결측치 컬럼을 삭제하는 것은 데이터 손실을 크게 만들 수 있습니다. 주어진 데이터의 특성과 제공되는 정보량을 고려하여 신중히 결정하시길 권장드립니다.
유사한 결측치 처리에 관한 토론이나 사례가 있는 질문을 참고해보시면 도움이 되실 것입니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.