결측치 처리
안녕하세요
데이터 전처리 과정에서 궁금한 사항이 있어서 질문 드립니다.
결측치 처리할 때 결측치가 있는 컬럼들을 그냥 다 삭제를 해도 되는건가요?
결측치를 다른값으로 채우는 방법도 있는데 어떤 컬럼은 삭제하고 어떤 컬럼은 다른 값으로 채우는지 기준을 잘 모르겠습니다.(그래서 결측치가 있다면 그냥 다 삭제하는 방법으로 진행해도 되는지 궁금합니다.)
답변 2
0
베이스라인에서 삭제 하고 추후 채워서 비교하려는 건 ok!
결측치는 채우는 방향으로 준비해 주세요 🙂
예를 들어, 나이 컬럼에 100개 중에 1개의 결측치가 있는데 컬럼을 삭제하는 것은 데이터 손실이 너무 크고 또 극단적으로 5개 컬럼에서 5개 모두 결측치가 있다면 남는 것이 없어요 ㅠ
0
안녕하세요, 인프런 AI 인턴입니다. 고동협님.
데이터 전처리 과정에서 결측치 처리에 대해 질문 주셨군요. 결측치는 모델의 성능에 큰 영향을 끼칠 수 있는 요소이기에 어떻게 다루느냐에 따라 결과가 크게 달라질 수 있습니다.
결측치가 있는 컬럼을 모두 삭제해도 될까요?
- 결측치가 있는 컬럼을 모두 삭제하는 것은 데이터의 양을 크게 줄일 위험이 있습니다. 이는 특히 데이터가 충분하지 않을 때 문제를 일으킬 수 있습니다. 따라서 일정 비율(예를 들어 50% 이상 결측치가 있는 컬럼)을 기준으로 컬럼 삭제를 고려할 수 있지만, 대부분의 경우는 각 컬럼의 중요도와 데이터셋의 특성을 고려하여 결정을 내립니다.
- 결측치가 있는 컬럼을 모두 삭제하는 것은 데이터의 양을 크게 줄일 위험이 있습니다. 이는 특히 데이터가 충분하지 않을 때 문제를 일으킬 수 있습니다. 따라서 일정 비율(예를 들어 50% 이상 결측치가 있는 컬럼)을 기준으로 컬럼 삭제를 고려할 수 있지만, 대부분의 경우는 각 컬럼의 중요도와 데이터셋의 특성을 고려하여 결정을 내립니다.
결측치를 다른 값으로 채우는 방법 및 기준은 무엇인가요?
- 결측치를 다른 값으로 채우는 경우에는 일반적으로 평균, 중앙값, 또는 최빈값으로 결측치를 대체합니다. 또한, 이 방법은 결측치가 데이터셋 전체에서 어떻게 분포하느냐에 따라 달라질 수 있습니다.
- 결측치를 어떤 방법으로 처리할지 결정하기 위해서는 데이터의 특성을 이해하고 탐색적 데이터 분석(EDA)을 통해 각 컬럼의 중요도와 특성을 파악하는 것이 필요합니다.
- 삭제하거나 대체할 컬럼을 결정할 때에는, 컬럼이 모델의 성능에 얼마나 영향을 미치는지를 고려하여야 합니다. 예를 들어, 컬럼이 모델 성능에 중요한 기여를 한다면 결측치를 대체하는 방법을 선택하는 것이 좋습니다.
- 결측치를 다른 값으로 채우는 경우에는 일반적으로 평균, 중앙값, 또는 최빈값으로 결측치를 대체합니다. 또한, 이 방법은 결측치가 데이터셋 전체에서 어떻게 분포하느냐에 따라 달라질 수 있습니다.
아래의 관련 질문과 답변을 참고하면 더욱 이해가 쉬우실 것입니다:
- 결측치 삭제 시 질문: 결측치를 삭제할 때의 기준과 방법에 대한 설명을 제공하고 있습니다.
- 데이터 전처리(결측치 채울때 궁금한점): 결측치 처리 시 Train 데이터의 통계량을 통해 Test 데이터의 결측치를 채우는 방식에 대해 다룹니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
뒤로가기 버튼 같은 것이 있나요?
0
22
1
강의 연장 문의
0
28
1
출력값 질문
0
28
2
수업노트가 어디에 있나요?
0
28
1
실기시험 제출관련
0
160
2
6.20 작업형 2 과적합
0
167
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
51
2
로지스틱회귀, 회귀
0
51
2
회귀 문제를 풀때 질문입니다.
0
58
1
불균형 처리 후 성능이 더 낮아졌다면,
0
65
2
실기 체험 제2유형 에러 문의
0
65
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
51
2
3번문제 등분산 가정
0
49
2
작업형3 target 형 변환 질문
0
37
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
39
3
원핫인코딩과 레이블 인코딩에서 concat
0
61
2
제2유형 질문입니다.
0
48
2
C()
0
44
2
작업형 2에서 strafity 적용 유무
0
52
2
수강 기간 연장 가능 여부 문의드립니다.
0
61
1
ols
0
44
2
2유형 작성관련 질문(일반 심화)
0
40
2
2유형 작성관련 질문
0
41
2
2유형 object컬럼 개수 다르면
0
48
2





