Inflearn Community Q&A
결측치 처리
Resolved
Written on
·
71
0
안녕하세요
데이터 전처리 과정에서 궁금한 사항이 있어서 질문 드립니다.
결측치 처리할 때 결측치가 있는 컬럼들을 그냥 다 삭제를 해도 되는건가요?
결측치를 다른값으로 채우는 방법도 있는데 어떤 컬럼은 삭제하고 어떤 컬럼은 다른 값으로 채우는지 기준을 잘 모르겠습니다.(그래서 결측치가 있다면 그냥 다 삭제하는 방법으로 진행해도 되는지 궁금합니다.)
Answer 2
0
베이스라인에서 삭제 하고 추후 채워서 비교하려는 건 ok!
결측치는 채우는 방향으로 준비해 주세요 🙂
예를 들어, 나이 컬럼에 100개 중에 1개의 결측치가 있는데 컬럼을 삭제하는 것은 데이터 손실이 너무 크고 또 극단적으로 5개 컬럼에서 5개 모두 결측치가 있다면 남는 것이 없어요 ㅠ
0
안녕하세요, 인프런 AI 인턴입니다. 고동협님.
데이터 전처리 과정에서 결측치 처리에 대해 질문 주셨군요. 결측치는 모델의 성능에 큰 영향을 끼칠 수 있는 요소이기에 어떻게 다루느냐에 따라 결과가 크게 달라질 수 있습니다.
결측치가 있는 컬럼을 모두 삭제해도 될까요?
- 결측치가 있는 컬럼을 모두 삭제하는 것은 데이터의 양을 크게 줄일 위험이 있습니다. 이는 특히 데이터가 충분하지 않을 때 문제를 일으킬 수 있습니다. 따라서 일정 비율(예를 들어 50% 이상 결측치가 있는 컬럼)을 기준으로 컬럼 삭제를 고려할 수 있지만, 대부분의 경우는 각 컬럼의 중요도와 데이터셋의 특성을 고려하여 결정을 내립니다.
- 결측치가 있는 컬럼을 모두 삭제하는 것은 데이터의 양을 크게 줄일 위험이 있습니다. 이는 특히 데이터가 충분하지 않을 때 문제를 일으킬 수 있습니다. 따라서 일정 비율(예를 들어 50% 이상 결측치가 있는 컬럼)을 기준으로 컬럼 삭제를 고려할 수 있지만, 대부분의 경우는 각 컬럼의 중요도와 데이터셋의 특성을 고려하여 결정을 내립니다.
결측치를 다른 값으로 채우는 방법 및 기준은 무엇인가요?
- 결측치를 다른 값으로 채우는 경우에는 일반적으로 평균, 중앙값, 또는 최빈값으로 결측치를 대체합니다. 또한, 이 방법은 결측치가 데이터셋 전체에서 어떻게 분포하느냐에 따라 달라질 수 있습니다.
- 결측치를 어떤 방법으로 처리할지 결정하기 위해서는 데이터의 특성을 이해하고 탐색적 데이터 분석(EDA)을 통해 각 컬럼의 중요도와 특성을 파악하는 것이 필요합니다.
- 삭제하거나 대체할 컬럼을 결정할 때에는, 컬럼이 모델의 성능에 얼마나 영향을 미치는지를 고려하여야 합니다. 예를 들어, 컬럼이 모델 성능에 중요한 기여를 한다면 결측치를 대체하는 방법을 선택하는 것이 좋습니다.
- 결측치를 다른 값으로 채우는 경우에는 일반적으로 평균, 중앙값, 또는 최빈값으로 결측치를 대체합니다. 또한, 이 방법은 결측치가 데이터셋 전체에서 어떻게 분포하느냐에 따라 달라질 수 있습니다.
아래의 관련 질문과 답변을 참고하면 더욱 이해가 쉬우실 것입니다:
- 결측치 삭제 시 질문: 결측치를 삭제할 때의 기준과 방법에 대한 설명을 제공하고 있습니다.
- 데이터 전처리(결측치 채울때 궁금한점): 결측치 처리 시 Train 데이터의 통계량을 통해 Test 데이터의 결측치를 채우는 방식에 대해 다룹니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





