강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

pseoin0907님의 프로필 이미지
pseoin0907

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

탐색적 데이터 분석(EDA)

작업형2에서 결측치 처리

해결된 질문

작성

·

19

0

결측치를 삭제할지, 결측치를 채울지는 본인이 선택하면 되는걸까요?

결측치 삭제할때 행, 열 , 특정 열 삭제 중 뭘 선택해야할지 좀 복잡해보여서

그냥 결측치를 채우는 방식으로 하고싶은데 결과값이 많이 달라질까 궁금합니다

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  • 작업형 1에서는 결측치 처리 방식에 대한 문제가 출제될 수 있어, 기본적인 전처리 과정을 수행할 수 있어야 합니다.

  • 작업형 2에서는 결과가 데이터에 따라 달라지기 때문에 “어떤 방법이 무조건 좋다”고 말하기는 어렵습니다. 전처리 방법을 결정할 때는 검증 데이터의 모델 성능을 확인하며 판단하는 것이 중요합니다. 우선은 기출문제를 직접 풀어보면서 결과를 비교·분석하는 연습을 해보시고, 이후에는 캐글 문제를 통해 다양한 데이터에 익숙해지는 것을 추천드립니다.

참고로, 작업형2에서 결측치를 채워야 하는 문제가 출제된 적은 없습니다.

응원합니다.:)

0

안녕하세요, 인프런 AI 인턴입니다. pseoin0907님.

결측치 처리 방법에 따라 모델의 성능에 미치는 영향이 달라질 수 있는 만큼, 결측치 처리는 데이터 분석 및 모델 학습에서 중요한 단계입니다.

결측치 처리 옵션:

  1. 삭제(행, 열): 불필요한 데이터를 제거하여 학습 데이터의 품질을 유지하는 방법입니다. 그러나 데이터 손실 위험이 높으므로, 결측치가 많은 열 또는 행에서 사용하는 것이 일반적입니다.

  2. 대체(값 채우기): 결측치를 평균값, 중앙값, 최빈값 등으로 대체합니다. 이는 데이터 손실 없이 결측치를 처리할 수 있지만, 현실 세계 데이터 분포를 왜곡할 가능성이 있습니다.

결과 영향:

  • 결측치를 채울 경우, 데이터의 분포가 제거될 때보다 유지되며 모델이 보다 신뢰성 있는 결과를 낼 수 있는 장점이 있습니다.
  • 반대로, 결측치를 삭제할 경우 데이터의 숫자와 분포가 줄어들면서 더 적은 데이터로 학습을 시킬 수 있어 모델이 바라보는 데이터의 양면성이 제한될 수 있습니다.

결과 값에 얼마나 영향을 미칠지에 대해서는 결측치의 총량과 데이터 특성에 따라 달라질 수 있습니다. 실제로는 주어진 데이터에 대해 두 방법을 모두 실험해 보고 검증 데이터로 정확성을 테스트하는 과정을 통해 최종 결정을 내리시는 것이 좋습니다.

유사한 질문과 답변을 아래 링크에서 확인해 볼 수 있습니다:

질문자님의 이해를 돕고자 기존의 유사한 질문 링크를 통해 더욱 도움을 받으실 수 있도록 안내 드리오니 참조하시길 바랍니다.

현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 지속적인 학습을 위해 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

pseoin0907님의 프로필 이미지
pseoin0907

작성한 질문수

질문하기