inflearn logo
강의

講義

知識共有

[非専攻者大歓迎]ゼロベースも簡単に入門するPythonデータ分析

Chapter 1-1.住宅価格予測の問題

결측치 채우기 부분 관련 질문

378

owenchoi96

投稿した質問数 45

0

안녕하세요 선생님. 결측치 채우기 섹션에서 궁금한 부분이 있어 질문을 드립니다.

결측치 채우기 부분에서 왜 문자열 데이터는 빈도가 높은 데이터 순을 대치하는 방법을 적용하는지 궁금하여 여쭤봅니다.

그리고 그 아래 코드에 .mode()는 어떤 것을 의미하는 지 알려주시면 감사드립니다.

그 부분과 연결지어 아래 부분에,

# 이제 각 Feature 마다 빈도수가 가장 많이 나타나는 값을 추가하는 코드를 작성한다.

for i in final_cat_vars:

all_df[i] = all_df[i].fillna(all_df[i].mode()[0])

빈도수가 가장 많이 나타나는 값을 왜 추가하는지 알려주시면 감사드립니다.

 

 

matplotlib scikit-learn 머신러닝 배워볼래요? kaggle python numpy pandas

回答 1

0

Evan

  1. 결측치 대치는 여러가지 방법이 있는데, 그 중 가장 쉬운 방법인, 빈도수가 가장 많이 나온 것을 대체 한 것입니다. 이 방법이 꼭 좋은 방법은 아니나, base 머신러닝 모형을 구축할 때는 쉽게 구축 할 수 있기 때문에 사용한다고 생각하면 될 것 같습니다.

  2. mode() 함수는 문자열의 각 값을 계산한 후, 높은 순부터 정렬하여 반환합니다. mode()[0]은 각 칼럼에서 가장 높은 값을 추출한다는 뜻입니다.

 

결측치 대치는 이 문제 하나만으로도 논문으로 나올 수 있는 매우 어려운 문제입니다. 본 강의에서는 가장 쉬운 방법을 택했다고 보면 될 것 같습니다. 문자열 결측치에서 가장 큰 어려운 문제는 high-cardinality 이슈가 있습니다. 관련 키워드로 검색해보시고, 혹시나 이해가 어려우면 추가로 강의를 제작해서 올리도록 하겠습니다.

작업형 1 (삭제예정, 구 버전)

0

21

1

강의노트는 어디있나요?

0

9

0

노션 학습 자료 권한 요청

0

10

1

수강기간 연장 문의드립니다.

0

16

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

18

3

part2강의 문의사항입니다.

0

14

2

수강기간 연장 문의드립니다.

0

26

1

인덱스 슬라이싱

0

25

2

코드를 첨부해야하는 이유가 있나요?

0

20

2

소리가 겹쳐서 들려요

0

17

2

데스크톱과 노트북 연결

0

25

1

dict, zip

0

21

2

노션 : 파트3번 링크와 권한 , 파트4번 권한요청, 파트 5번도 미리 요청 드립니다.

0

27

4

6-6 실습 문의

0

21

2

미션 06-02

0

23

2

yes24 수집 md 파일 만들 때

0

20

2

python main.py 실행시 게임이 실행이 안돼요

0

24

2

boxcox를 변환하는 코드 에

0

790

2

레몬에이드 데이터 자료에 없습니다

0

415

1

데이터셋 압축 문제

1

380

1

주피터 노트북, 비쥬얼 스튜디오 다안되는데 다른 방법이없나요

0

190

1

강의자료

0

311

1

레몬에이드 데이터 자료에 없습니다

0

397

2

선생님 문의드립니다.

1

412

2