inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기

Chapter 1-1. 주택 가격 예측 문제

결측치 채우기 부분 관련 질문

394

최원빈

작성한 질문수 45

0

안녕하세요 선생님. 결측치 채우기 섹션에서 궁금한 부분이 있어 질문을 드립니다.

결측치 채우기 부분에서 왜 문자열 데이터는 빈도가 높은 데이터 순을 대치하는 방법을 적용하는지 궁금하여 여쭤봅니다.

그리고 그 아래 코드에 .mode()는 어떤 것을 의미하는 지 알려주시면 감사드립니다.

그 부분과 연결지어 아래 부분에,

# 이제 각 Feature 마다 빈도수가 가장 많이 나타나는 값을 추가하는 코드를 작성한다.

for i in final_cat_vars:

all_df[i] = all_df[i].fillna(all_df[i].mode()[0])

빈도수가 가장 많이 나타나는 값을 왜 추가하는지 알려주시면 감사드립니다.

 

 

matplotlib scikit-learn 머신러닝 배워볼래요? kaggle python numpy pandas

답변 1

0

Evan

  1. 결측치 대치는 여러가지 방법이 있는데, 그 중 가장 쉬운 방법인, 빈도수가 가장 많이 나온 것을 대체 한 것입니다. 이 방법이 꼭 좋은 방법은 아니나, base 머신러닝 모형을 구축할 때는 쉽게 구축 할 수 있기 때문에 사용한다고 생각하면 될 것 같습니다.

  2. mode() 함수는 문자열의 각 값을 계산한 후, 높은 순부터 정렬하여 반환합니다. mode()[0]은 각 칼럼에서 가장 높은 값을 추출한다는 뜻입니다.

 

결측치 대치는 이 문제 하나만으로도 논문으로 나올 수 있는 매우 어려운 문제입니다. 본 강의에서는 가장 쉬운 방법을 택했다고 보면 될 것 같습니다. 문자열 결측치에서 가장 큰 어려운 문제는 high-cardinality 이슈가 있습니다. 관련 키워드로 검색해보시고, 혹시나 이해가 어려우면 추가로 강의를 제작해서 올리도록 하겠습니다.

수업노트가 어디에 있나요?

0

12

1

[긴급요청] 28강 동영상 전체에 오디오가 잘못들어가있습니다.

0

11

1

실제 계좌 잔고 및 테스트중에

1

27

4

Replit UI 변경으로 인한 실습 진행 문의

1

13

1

29강 5:00

0

17

2

설치 및 설정 가이드 노션 자료는 없나요 ?

0

17

2

실기시험 제출관련

0

142

2

6.20 작업형 2 과적합

0

150

3

install까지 설치 하였는데 start 가안됩니다.

1

26

1

8분54초 테이블 내용 문의

0

21

1

코딩팡 장업형2 베이스 라인 인코딩 종류 질문

0

47

2

multi_tool_agent.py 에서 arxiv tool 에러

0

18

1

로지스틱회귀, 회귀

0

47

2

가상 환경과 차이 도커 질문

0

24

1

자료 다운로드 위치 확인 부탁드립니다.

0

15

1

회귀 문제를 풀때 질문입니다.

0

53

1

불균형 처리 후 성능이 더 낮아졌다면,

0

61

2

boxcox를 변환하는 코드 에

0

813

2

레몬에이드 데이터 자료에 없습니다

0

428

1

데이터셋 압축 문제

1

392

1

주피터 노트북, 비쥬얼 스튜디오 다안되는데 다른 방법이없나요

0

198

1

강의자료

0

320

1

레몬에이드 데이터 자료에 없습니다

0

412

2

선생님 문의드립니다.

1

421

2