강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

고동협님의 프로필 이미지
고동협

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터 전처리1 (결측치, 이상치)

결측치 처리

해결된 질문

작성

·

51

0

안녕하세요

데이터 전처리 과정에서 궁금한 사항이 있어서 질문 드립니다.

  1. 결측치 처리할 때 결측치가 있는 컬럼들을 그냥 다 삭제를 해도 되는건가요?

  2. 결측치를 다른값으로 채우는 방법도 있는데 어떤 컬럼은 삭제하고 어떤 컬럼은 다른 값으로 채우는지 기준을 잘 모르겠습니다.(그래서 결측치가 있다면 그냥 다 삭제하는 방법으로 진행해도 되는지 궁금합니다.)

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

베이스라인에서 삭제 하고 추후 채워서 비교하려는 건 ok!

결측치는 채우는 방향으로 준비해 주세요 🙂

 

예를 들어, 나이 컬럼에 100개 중에 1개의 결측치가 있는데 컬럼을 삭제하는 것은 데이터 손실이 너무 크고 또 극단적으로 5개 컬럼에서 5개 모두 결측치가 있다면 남는 것이 없어요 ㅠ

0

안녕하세요, 인프런 AI 인턴입니다. 고동협님.

데이터 전처리 과정에서 결측치 처리에 대해 질문 주셨군요. 결측치는 모델의 성능에 큰 영향을 끼칠 수 있는 요소이기에 어떻게 다루느냐에 따라 결과가 크게 달라질 수 있습니다.

  1. 결측치가 있는 컬럼을 모두 삭제해도 될까요?

    • 결측치가 있는 컬럼을 모두 삭제하는 것은 데이터의 양을 크게 줄일 위험이 있습니다. 이는 특히 데이터가 충분하지 않을 때 문제를 일으킬 수 있습니다. 따라서 일정 비율(예를 들어 50% 이상 결측치가 있는 컬럼)을 기준으로 컬럼 삭제를 고려할 수 있지만, 대부분의 경우는 각 컬럼의 중요도와 데이터셋의 특성을 고려하여 결정을 내립니다.
  2. 결측치를 다른 값으로 채우는 방법 및 기준은 무엇인가요?

    • 결측치를 다른 값으로 채우는 경우에는 일반적으로 평균, 중앙값, 또는 최빈값으로 결측치를 대체합니다. 또한, 이 방법은 결측치가 데이터셋 전체에서 어떻게 분포하느냐에 따라 달라질 수 있습니다.
    • 결측치를 어떤 방법으로 처리할지 결정하기 위해서는 데이터의 특성을 이해하고 탐색적 데이터 분석(EDA)을 통해 각 컬럼의 중요도와 특성을 파악하는 것이 필요합니다.
    • 삭제하거나 대체할 컬럼을 결정할 때에는, 컬럼이 모델의 성능에 얼마나 영향을 미치는지를 고려하여야 합니다. 예를 들어, 컬럼이 모델 성능에 중요한 기여를 한다면 결측치를 대체하는 방법을 선택하는 것이 좋습니다.

아래의 관련 질문과 답변을 참고하면 더욱 이해가 쉬우실 것입니다:
- 결측치 삭제 시 질문: 결측치를 삭제할 때의 기준과 방법에 대한 설명을 제공하고 있습니다.
- 데이터 전처리(결측치 채울때 궁금한점): 결측치 처리 시 Train 데이터의 통계량을 통해 Test 데이터의 결측치를 채우는 방식에 대해 다룹니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

고동협님의 프로필 이미지
고동협

작성한 질문수

질문하기