데이터 전처리1(결측치, 이상치)
결측치 제거할 때 test는 처리하면 안된다고 하셨는데 다음과 같은 상황들에서 어떻게 처리해야 하나요?
1)train, test 둘다 결측치 있는 경우 train만
train = train.dropna()하면 되는지
2) train은 없고 test만 결측치가 있는경우 둘다 안 하면 되는지
3) train만 있고 test는 결측치가 없는 경우 train만 처리하면 되는지
답변 2
0
우선 결측치가 있는경우 데이터를 (행/컬럼)삭제 또는 채움으로 처리가 필요합니다.
train 삭제 또는 채움 처리, test데이터 채움 처리 필요 (또는 train과 함께 컬럼 삭제 가능)
test데이터 채움 처리 필요 (또는 train과 함께 컬럼 삭제 가능)
네 맞습니다.
결측치가 있는 경우 머신러닝에서 에러가 나서 그렇습니다.
0
안녕하세요, 인프런 AI 인턴입니다. 최수영님.
데이터 전처리 과정에서 결측치와 이상치 처리에 관한 질문을 해주셨군요. 결측치 처리 방법은 모델의 성능과 평가의 정확도에 큰 영향을 미칠 수 있기에 신중히 접근해야 하는 부분입니다. 아래에 상황별 처리를 정리하겠습니다.
1) Train과 Test 모두 결측치가 있는 경우
train = train.dropna()와 같이 Train 데이터에서 결측치를 제거하는 것은 학습 데이터의 청결성을 높이기 위한 방법이 될 수 있습니다. 그러나, Test 데이터에서는 행을 삭제하면 안 됩니다. Test 데이터의 결측치는 학습 데이터를 기반으로 적절히 대체(impute)하는 방법을 추천드립니다. 예를 들어, Train 데이터에서 결측치를 제거한 후의 통계량(평균 또는 중앙값)을 이용해 Test 데이터의 결측치를 채울 수 있습니다.
2) Train에 결측치가 없고 Test에만 결측치가 있는 경우
- 이런 경우 Test 데이터의 결측치를 Train 데이터의 통계량을 기반으로 대체하는 것이 일반적입니다. 직접적으로 Train 데이터에 영향을 준 요소와 동일한 방식으로 Test 데이터의 결측치를 다루는 방식입니다.
3) Train에만 결측치가 있고 Test에는 없는 경우
- Train 데이터만을 처리하면 됩니다. 학습 과정에서 결측치를 제거하거나 대체하여 모델의 성능을 높이는 방향으로 작업할 수 있습니다.
각 경우에 대해 추가적인 정보를 원하시면, 유사한 질문과 답변이 아래 게시물들에서 확인 가능합니다:
- 데이터 전처리(결측치 채울때 궁금한점): 결측치 처리 방법의 기본 원칙에 대해 설명하고 있습니다.
- 3-3 데이터 전처리 질문: Test 데이터의 결측치를 Train 데이터의 통계량으로 채우는 일반적인 방법에 대해 다룹니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
뒤로가기 버튼 같은 것이 있나요?
0
26
1
강의 연장 문의
0
28
1
출력값 질문
0
28
2
수업노트가 어디에 있나요?
0
28
1
실기시험 제출관련
0
160
2
6.20 작업형 2 과적합
0
167
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
51
2
로지스틱회귀, 회귀
0
51
2
회귀 문제를 풀때 질문입니다.
0
58
1
불균형 처리 후 성능이 더 낮아졌다면,
0
65
2
실기 체험 제2유형 에러 문의
0
65
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
51
2
3번문제 등분산 가정
0
49
2
작업형3 target 형 변환 질문
0
37
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
39
3
원핫인코딩과 레이블 인코딩에서 concat
0
61
2
제2유형 질문입니다.
0
48
2
C()
0
44
2
작업형 2에서 strafity 적용 유무
0
52
2
수강 기간 연장 가능 여부 문의드립니다.
0
61
1
ols
0
44
2
2유형 작성관련 질문(일반 심화)
0
40
2
2유형 작성관련 질문
0
41
2
2유형 object컬럼 개수 다르면
0
48
2





