다르게 적용해보는 Feature Engineering2 강의에서 질문입니다
277
작성한 질문수 45
다르게 적용해보는 Feature Engineering2 강의의 15:11 부분부터 궁금한 점이 있어 질문 올립니다.
해당 강의에서는 다음과 같이 2개의 리스트를 작성하였는데요
family_survival_rate = list()
family_survival_rate_NA = list()동승자가 있는지/없는지를 기준으로 2개의 리스트에 값을 각각 넣어준다는 전체적인 과정은 이해했지만, 사실 family_survival_rate_NA 리스트는 어떤 이유로 존재하는 것인지에 대한 설명이 조금 필요한 것 같습니다.
family_survival_rate = list()
mean_survival_rate = np.mean(df_train['Survived']) # 0.3838383838383838
for i in range(len(df_all)):
if df_all['Family_Name'][i] in family_rates: # 동승자가 있는 경우
family_survival_rate.append(family_rates[df_all['Family_Name'][i]]) # family_rates[df_all['Family_Name'][i]] -> family_rates 딕셔너리에서 위의 이름들을 키 값으로 하고, 이에 해당하는 Survived 값을 찾음
else: # 동승자가 없는 경우
family_survival_rate.append(mean_survival_rate)
동승자가 있으면 family_survival_rate 리스트에 Survived 컬럼의 생존 확률을 넣고,
동승자가 없으면 family_survival_rate 리스트에 생존 확률의 평균값을 넣어주면 충분한 것 아닌가 하는 생각이 드는데요,
family_survival_rate_NA 리스트가 어떤 용도로 사용되는 것인지, 그리고 왜 값은 0과 1만을 넣는 것인지 조금 더 설명해 주시면 감사할 것 같습니다!!
답변 1
0
안녕하세요. 답변 도우미입니다.
머신러닝 모델에 보다 더 확신있게 학습을 시키기 위해서, family_survival_rate_NA를 추가해본 것인데요. 모델에게 특정 승객이 동승자와 함께 여행했는지 여부를 나타내는 이진 피처로 사용될 수 있습니다. 이것은 동승자의 유무 자체가 생존에 영향을 미칠 수 있음을 반영하게 해줍니다.
예를 들어, 동승자가 있는 승객과 없는 승객 간의 생존율에 차이가 있을 수 있으므로, 이러한 정보를 말씀하신 다른 피처로도 간접 학습이 되지만, 보다 더 강하게 명시적으로 학습을 시키고자, 해당 피처를 별도로 만들어 본 것입니다. 이러한 작업이 가끔 모델이 패턴을 학습하는 데 도움이 될 수 있기 때문입니다.
감사합ㄴ디ㅏ.
자료 공유 질문
0
57
1
Ascii 에러 관련하여 질문드립니다
0
81
1
고차원 데이터 질문
0
52
0
test / train 데이터 나누기
0
97
1
세션4 범주형 데이터 분석 패턴 강의 질문
0
199
2
pandas 2.2.2, xgboost 2.1.3 에러 해결 방법
0
215
1
sklearn v1.5.1
0
168
1
머신러닝 적용을 위한 Feature Engineering 작업1
0
178
2
missingno 대체
0
167
1
scikit-learn 1.5.1 matplotlib 3.9.2
0
129
1
환불문의
0
263
1
자료공유를 받으려고 하는데 에러가 납니다.
0
157
1
iplot에서 항상 에러나는 분 안계신가용?
0
221
1
사망 여부 영향 가능성
0
142
1
섹션4_인코딩 이해하고 적용해보기(원핫인코딩) 질문
0
189
1
df.corr(numeric_only=True).iplot() 에러 해결 어떻게 해야되나요?
0
277
1
주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문
0
244
1
3강 강의 자료 코드 관련 질문입니다
1
336
1
맥 사용자 mkdir .kaggle 했는데 파일이 안만들어집니다.
0
414
1
Bayesian Optimization에서 optimizer.maximize()함수를 더이상 지원 안한다고 합니다.
0
875
2
Bayesian Optimization LightGBM 적용
0
457
2
하이퍼 파라미터 튜닝 기법 적용하기 실행값이 미묘하게 달라요.
1
341
1
중복된 코드 수정 요청 - 자전거 공유 문제 이해와 EDA3
0
214
1
강의 중 에러 질문
0
739
1





