inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]

다르게 적용해보는 Feature Engineering2 (업데이트)

다르게 적용해보는 Feature Engineering2 강의에서 질문입니다

277

vpdtlrdl

작성한 질문수 45

0

다르게 적용해보는 Feature Engineering2 강의의 15:11 부분부터 궁금한 점이 있어 질문 올립니다.

해당 강의에서는 다음과 같이 2개의 리스트를 작성하였는데요

family_survival_rate = list()
family_survival_rate_NA = list()

동승자가 있는지/없는지를 기준으로 2개의 리스트에 값을 각각 넣어준다는 전체적인 과정은 이해했지만, 사실 family_survival_rate_NA 리스트는 어떤 이유로 존재하는 것인지에 대한 설명이 조금 필요한 것 같습니다.

 

family_survival_rate = list()
mean_survival_rate = np.mean(df_train['Survived']) # 0.3838383838383838

for i in range(len(df_all)):
    if df_all['Family_Name'][i] in family_rates: # 동승자가 있는 경우   
        
        family_survival_rate.append(family_rates[df_all['Family_Name'][i]]) # family_rates[df_all['Family_Name'][i]] -> family_rates 딕셔너리에서 위의 이름들을 키 값으로 하고, 이에 해당하는 Survived 값을 찾음

    else: # 동승자가 없는 경우                                             
        family_survival_rate.append(mean_survival_rate)

 

동승자가 있으면 family_survival_rate 리스트에 Survived 컬럼의 생존 확률을 넣고,

동승자가 없으면 family_survival_rate 리스트에 생존 확률의 평균값을 넣어주면 충분한 것 아닌가 하는 생각이 드는데요,

 

family_survival_rate_NA 리스트가 어떤 용도로 사용되는 것인지, 그리고 왜 값은 0과 1만을 넣는 것인지 조금 더 설명해 주시면 감사할 것 같습니다!!

python 머신러닝 pandas kaggle

답변 1

0

잔재미코딩 DaveLee

안녕하세요. 답변 도우미입니다.

머신러닝 모델에 보다 더 확신있게 학습을 시키기 위해서, family_survival_rate_NA를 추가해본 것인데요. 모델에게 특정 승객이 동승자와 함께 여행했는지 여부를 나타내는 이진 피처로 사용될 수 있습니다. 이것은 동승자의 유무 자체가 생존에 영향을 미칠 수 있음을 반영하게 해줍니다.

예를 들어, 동승자가 있는 승객과 없는 승객 간의 생존율에 차이가 있을 수 있으므로, 이러한 정보를 말씀하신 다른 피처로도 간접 학습이 되지만, 보다 더 강하게 명시적으로 학습을 시키고자, 해당 피처를 별도로 만들어 본 것입니다. 이러한 작업이 가끔 모델이 패턴을 학습하는 데 도움이 될 수 있기 때문입니다.

감사합ㄴ디ㅏ.

자료 공유 질문

0

57

1

Ascii 에러 관련하여 질문드립니다

0

81

1

고차원 데이터 질문

0

52

0

test / train 데이터 나누기

0

97

1

세션4 범주형 데이터 분석 패턴 강의 질문

0

199

2

pandas 2.2.2, xgboost 2.1.3 에러 해결 방법

0

215

1

sklearn v1.5.1

0

168

1

머신러닝 적용을 위한 Feature Engineering 작업1

0

178

2

missingno 대체

0

167

1

scikit-learn 1.5.1 matplotlib 3.9.2

0

129

1

환불문의

0

263

1

자료공유를 받으려고 하는데 에러가 납니다.

0

157

1

iplot에서 항상 에러나는 분 안계신가용?

0

221

1

사망 여부 영향 가능성

0

142

1

섹션4_인코딩 이해하고 적용해보기(원핫인코딩) 질문

0

189

1

df.corr(numeric_only=True).iplot() 에러 해결 어떻게 해야되나요?

0

277

1

주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문

0

244

1

3강 강의 자료 코드 관련 질문입니다

1

336

1

맥 사용자 mkdir .kaggle 했는데 파일이 안만들어집니다.

0

414

1

Bayesian Optimization에서 optimizer.maximize()함수를 더이상 지원 안한다고 합니다.

0

875

2

Bayesian Optimization LightGBM 적용

0

457

2

하이퍼 파라미터 튜닝 기법 적용하기 실행값이 미묘하게 달라요.

1

341

1

중복된 코드 수정 요청 - 자전거 공유 문제 이해와 EDA3

0

214

1

강의 중 에러 질문

0

739

1