inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

실전 데이터 사이언스 Part2. 데이터 전처리

결측값 처리

576

AI Engineer

작성한 질문수 2

0

안녕하세요. 실전 데이터 사이언스 Part2. 데이터 전처리 학습을 잘듣고 있는 학생입니다. 강의를 너무 잘듣고 있고, "결측치 처리" 관련해서 질문이 있어서 글을 남기게 되었습니다.  특정 컬럼의 결측값 비율이 50%를 넘고 있습니다. 하지만 이 컬럼과 label값과의 상관관계를 보면 0.45 정도 되기 때문에 중요한 컬럼이란 생각을 하고 있습니다. 이런 경우, 그래도 결측값이 너무 많기 때문에 제거하는게 좋은지 아니면, 평균값 등 다른값으로 대체하는게 좋을지 조언을 구할 수 있을까요? 감사합니다.

결측치 python

답변 1

0

김화종

결측치의 %가 크다고 항상 컬럼을 삭제하지는 않습니다.

가능한 타당한 값으로 대체하는 것이 필요한데, 일단 평균치로 대체한 후에 머신러닝 모델의 성능이 개선되는지를 직접 확인해보는 방법이 있겠습니다. 항상 가장 중요한 것은 모델의 성능이 개선되는지를 보고 선택 여부를 판단하는 것입니다. 문제에 따라서 결과가 다르기 때문입니다.

또한  일괄적으로 평균치를 취하는 방법 외에도 개선된 방법들이 있습니다. 예를 들어 다른 변수를 보고 좀더 근접한 값으로 추정할 수 있겠지요. 예를 들어 키라면 나이를 보고 연령대별 평균을 사용한다든지 하는 방법입니다.

결측치가 카데고리 변수라면 원핫 인코딩을 한 후에 결측치는 모두 0으로 인코딩하는 방법도 있습니다. 이는 특히 모델로 랜덤포레스트 모델을 사용할 때 유용합니다. 결측치가 있는 샘플은 트리 분류에서 다루지 않는 방법입니다.

 

답이 되었는지요?

 

멍슨상이라 이름 변경하시는 게 어떠신지요?

1

12

0

수업 노트가 안 보입니다.

0

14

1

Python formatter 설치

0

11

1

55강 파이썬에만있는 연산자들

0

10

1

55강의 파이썬에서만 있는 연산자들

0

9

1

주말에 실행할 경우 update_economic_data_in_background에 로직 변경 필요성

1

17

1

naver 글자 수집 오류 건

0

14

1

쥬피터 노트북이 실행이 안됩니다.

0

17

1

뒤로가기 버튼 같은 것이 있나요?

0

21

1

Replit 강의 자료가 안나와요

0

16

1

강의 연장 문의

0

18

1

프로그램 실행시간에 대한 질문

1

20

2

비중 및 매수 종목수 조정.

1

22

2

Claude api가 소식 동기화가 늦는 문제

1

35

2

[긴급요청2] 28강 동영상 오류(27강 음성 재생) 수정 예정일자를 알려주세요

0

22

1

codex에게 대용량 코드베이스를 인식 시키는 방법은 어떤게 있나요?

0

29

1

n_step 값에 대하여

0

453

1

dir*.csv가 안됩니다.

0

329

1

6 시그마 이상 outlier

0

558

1

로그변환에 대하여

0

646

1

In[42] 14:50 코드 질문

0

249

1

Titanic 데이터셋 PClass cateogrical -> one hot encoding

0

385

1

표준 스케일링관련 문의

0

320

1

6:14초 dataframe 스케일링한 후 컬럼 추가에 대한 질문

0

741

1