Age 컬럼의 결측치 수정에 관한 질문입니다

Question

"다르게 적용해보는 Feauture Engineering 1" 강의 5분 40초 부분에서, df_all.groupby(['Title', 'Pclass'])['Age'].median() 다음과 같이 Title과 Pclass 컬럼을 이용하여 그룹화를 하고, 중간값을 이용하여 Age 컬럼의 결측치를 채워 넣는 과정을 진행하였습니다. 여기서 궁금증이 생긴 부분은, "왜 'Pclass' 컬럼까지 이용을 해서 그룹화를 하는가" 인데요, 해당 강의 전의 Feature Engineering 과정에서 '이름' 과 관련된 데이터와, 나이는 어느 정도 관련이 있음을 파악하였지만 Pclass 데이터는 나이와 어떠한 관련이 있는지 잘 파악이 되지 않습니다... 어떠한 이유로 Pclass 컬럼을 이용하여 나이의 결측치를 유추하였는지 그 이유가 궁금합니다!

잔재미코딩 DaveLee · Answer

안녕하세요. 답변도우미입니다. 단순히 Title 만으로 그룹핑을 해서, Age 가 없는 항목에 평균을 취하면, 너무 rough 한 값으로 채워지게 되서요. Pclass 까지 적용을 시켜서, 좀더 각 Pclass 별 평균 Age 로 Age 가 없는 값을 채워넣고자 했습니다. 즉 Pclass 별 Title 별로 Age 가 경향성을 띌 가능성이 있다는 일종의 가설이었습니다. 아무래도 결측치니까, 정확한 값을 넣기는 어렵기 때문에, 좀더 구체화할 수 있는 방안을 고려해본 것입니다. 물론 실제 값은 전혀 다를 수 있습니다. 감사합니다.