inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]

다르게 적용해보는 Feature Engineering1 (업데이트)

Age 컬럼의 결측치 수정에 관한 질문입니다

245

vpdtlrdl

작성한 질문수 45

0

"다르게 적용해보는 Feauture Engineering 1" 강의 5분 40초 부분에서,

df_all.groupby(['Title', 'Pclass'])['Age'].median()

다음과 같이 Title과 Pclass 컬럼을 이용하여 그룹화를 하고, 중간값을 이용하여

Age 컬럼의 결측치를 채워 넣는 과정을 진행하였습니다.

 

여기서 궁금증이 생긴 부분은,

"왜 'Pclass' 컬럼까지 이용을 해서 그룹화를 하는가" 인데요,

해당 강의 전의 Feature Engineering 과정에서 '이름' 과 관련된 데이터와, 나이는 어느 정도 관련이 있음을 파악하였지만

Pclass 데이터는 나이와 어떠한 관련이 있는지 잘 파악이 되지 않습니다...

 

어떠한 이유로 Pclass 컬럼을 이용하여 나이의 결측치를 유추하였는지 그 이유가 궁금합니다!

pandas 머신러닝 배워볼래요? kaggle python

답변 1

1

잔재미코딩 DaveLee

안녕하세요. 답변도우미입니다.

단순히 Title 만으로 그룹핑을 해서, Age 가 없는 항목에 평균을 취하면, 너무 rough 한 값으로 채워지게 되서요. Pclass 까지 적용을 시켜서, 좀더 각 Pclass 별 평균 Age 로 Age 가 없는 값을 채워넣고자 했습니다. 즉 Pclass 별 Title 별로 Age 가 경향성을 띌 가능성이 있다는 일종의 가설이었습니다. 아무래도 결측치니까, 정확한 값을 넣기는 어렵기 때문에, 좀더 구체화할 수 있는 방안을 고려해본 것입니다. 물론 실제 값은 전혀 다를 수 있습니다. 감사합니다.

자료 공유 질문

0

62

1

Ascii 에러 관련하여 질문드립니다

0

81

1

고차원 데이터 질문

0

58

1

세션4 범주형 데이터 분석 패턴 강의 질문

0

199

2

pandas 2.2.2, xgboost 2.1.3 에러 해결 방법

0

215

1

sklearn v1.5.1

0

168

1

머신러닝 적용을 위한 Feature Engineering 작업1

0

179

2

missingno 대체

0

169

1

scikit-learn 1.5.1 matplotlib 3.9.2

0

130

1

환불문의

0

264

1

자료공유를 받으려고 하는데 에러가 납니다.

0

158

1

iplot에서 항상 에러나는 분 안계신가용?

0

224

1

사망 여부 영향 가능성

0

142

1

섹션4_인코딩 이해하고 적용해보기(원핫인코딩) 질문

0

190

1

df.corr(numeric_only=True).iplot() 에러 해결 어떻게 해야되나요?

0

280

1

주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문

0

245

1

3강 강의 자료 코드 관련 질문입니다

1

337

1

맥 사용자 mkdir .kaggle 했는데 파일이 안만들어집니다.

0

415

1

Bayesian Optimization에서 optimizer.maximize()함수를 더이상 지원 안한다고 합니다.

0

877

2

Bayesian Optimization LightGBM 적용

0

459

2

하이퍼 파라미터 튜닝 기법 적용하기 실행값이 미묘하게 달라요.

1

343

1

중복된 코드 수정 요청 - 자전거 공유 문제 이해와 EDA3

0

216

1

강의 중 에러 질문

0

741

1

cross_val_score 에러

0

464

1