결측값 처리
559
投稿した質問数 2
回答 1
0
결측치의 %가 크다고 항상 컬럼을 삭제하지는 않습니다.
가능한 타당한 값으로 대체하는 것이 필요한데, 일단 평균치로 대체한 후에 머신러닝 모델의 성능이 개선되는지를 직접 확인해보는 방법이 있겠습니다. 항상 가장 중요한 것은 모델의 성능이 개선되는지를 보고 선택 여부를 판단하는 것입니다. 문제에 따라서 결과가 다르기 때문입니다.
또한 일괄적으로 평균치를 취하는 방법 외에도 개선된 방법들이 있습니다. 예를 들어 다른 변수를 보고 좀더 근접한 값으로 추정할 수 있겠지요. 예를 들어 키라면 나이를 보고 연령대별 평균을 사용한다든지 하는 방법입니다.
결측치가 카데고리 변수라면 원핫 인코딩을 한 후에 결측치는 모두 0으로 인코딩하는 방법도 있습니다. 이는 특히 모델로 랜덤포레스트 모델을 사용할 때 유용합니다. 결측치가 있는 샘플은 트리 분류에서 다루지 않는 방법입니다.
답이 되었는지요?
6-6
0
8
1
작업형 1 유형 부분
0
11
1
수강평 이벤트
0
17
2
작업형 1 (삭제예정, 구 버전)
0
31
2
강의노트는 어디있나요?
0
17
1
노션 학습 자료 권한 요청
0
17
1
수강기간 연장 문의드립니다.
0
21
1
2유형 레이블 인코딩 VS 원핫 인코딩
0
24
3
part2강의 문의사항입니다.
0
19
2
수강기간 연장 문의드립니다.
0
26
1
인덱스 슬라이싱
0
27
2
코드를 첨부해야하는 이유가 있나요?
0
20
2
소리가 겹쳐서 들려요
0
21
2
데스크톱과 노트북 연결
0
26
1
dict, zip
0
21
2
노션 : 파트3번 링크와 권한 , 파트4번 권한요청, 파트 5번도 미리 요청 드립니다.
0
27
4
n_step 값에 대하여
0
440
1
dir*.csv가 안됩니다.
0
314
1
6 시그마 이상 outlier
0
544
1
로그변환에 대하여
0
630
1
In[42] 14:50 코드 질문
0
240
1
Titanic 데이터셋 PClass cateogrical -> one hot encoding
0
376
1
표준 스케일링관련 문의
0
302
1
6:14초 dataframe 스케일링한 후 컬럼 추가에 대한 질문
0
733
1

