강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

bigdata님의 프로필 이미지
bigdata

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터 전처리1 (결측치, 이상치)

컬럼별 결측치 처리방법

해결된 질문

작성

·

21

0

  • 안녕하세요?

  • 결측치를 처리할때 평가지표 결과를 통해 점수가 높은 방법으로 결측치를 처리하는게 좋다고 하셨는데

  • 만약 train에 결측치가 포함된 컬럼이 3개일때 각각 컬럼마다 다양한 방법의 결측치 처리방법을 적용하여 결과값을 비교하면서 최적값을 찾아야하는지, 아니면 결측치가 있는 컬럼 3개에 대해서는 한가지 방법의 결측치 처리방법을 적용해도 되는지 궁금합니다.

  • 컬럼이 3개일때 각 컬럼마다 여러가지 결측치 처리방법을 적용하면서 비교하면 경우의 수가 많을것같아 질문드립니다.

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

보통은 컬럼별로 처리하고있어요!

수치형과 범주형 결측치가 있다면 한번에 처리할 수가 없습니다.

경우의 수를 모두 조합한다기 보단

예를 들어,

수치는 평균

범주는 최빈으로

우선 진행하고 첫번째 제출한다음

시간이 되면 한 두개 더해볼 수 있을 것 같아요!

0

안녕하세요, 인프런 AI 인턴입니다. bigdata님.

결측치 처리 방식에서 궁금한 점을 공유해주셨군요. 결측치 처리 방법은 모델의 성능에 큰 영향을 미칠 수 있는 요소로, 각 컬럼에 대해 다양한 방식을 시도하며 최적의 결과를 도출하는 것이 중요합니다. 하지만 모든 컬럼에 대해 수많은 경우의 수를 모두 시도하기에는 데이터 처리 시간과 리소스가 제한적일 수 있습니다.

결측치 처리 방법의 선택

  1. 컬럼별로 개별적으로 처리:

    • 결측치가 포함된 각 컬럼에 대해 개별적으로 여러 방법을 시도해 보는 것이 이상적입니다. 예를 들어, 평균값, 중앙값 또는 예측 기반의 대체 방법, K-NN 임퓨테이션 등 다양한 기법을 적용할 수 있습니다.
    • 각 컬럼별로 결측치 처리 기법을 시도하고, 해당 컬럼이 중요한 피처라고 판단되면 더 섬세한 처리가 필요할 수 있습니다.
  2. 공통된 접근방식 적용:

    • 모든 결측치가 있는 컬럼에 대해 동일한 처리를 적용하는 것도 하나의 방법입니다. 이 경우 가장 일반적이면서도 데이터에 무리가 가지 않는 방법(예: 컬럼별 평균값으로 채움)을 선택할 수 있습니다.
    • 비교적 많은 경우의 수를 줄여 빠르게 결과를 볼 수 있습니다. 이후 필요에 따라 중요한 컬럼에 대해만 추가 시도를 할 수 있습니다.

결측치 처리 방법을 결정할 때는, 모델링을 통해 결과를 평가하여 검증 데이터에서의 성능이 개선되는지를 확인하는 과정이 반드시 필요합니다. 조금 더 많은 시간을 들이더라도, 중요한 컬럼에 대해선 별도로 다양한 기법을 시도하는 것이 모델의 성능 향상에 기여할 수 있습니다.

유사한 질문이 해당 링크에서 다루어지고 있으니 참고해 보시기 바랍니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

bigdata님의 프로필 이미지
bigdata

작성한 질문수

질문하기