inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]

타이타닉 문제로 시작하는 EDA: 수치형 데이터 분석 패턴1 (업데이트)

사망 여부 영향 가능성

139

gjtjqkr1

작성한 질문수 9

0

Survived 에서 뽑아냈을 때 수치가 높게 나오면 영향 가능성이 높다고 판단하면 되는건가요?

python 머신러닝 pandas kaggle

답변 1

0

잔재미코딩 DaveLee

안녕하세요. 답변 도우미입니다.

타이타닉 데이터를 기반으로 머신러닝 모델을 만들 때, Survived(생존 여부)에 어떤 변수가 영향을 미치는지 알아보고자 하는 경우가 있습니다. 다만, 질문에서 언급한 '수치가 높게 나오면 영향 가능성이 높다고 판단'하는 것은 정확히 어떤 수치를 의미하는지에 따라 다를 것 같아요. 다만, 일반적으로 머신러닝 모델에서 중요한 피처(변수)들은 다음과 같은 몇 가지 방법으로 그 영향을 측정할 수 있습니다.

1. 피처 중요도(Feature Importance): 머신러닝 모델이 학습 과정에서 특정 변수를 자주 사용한다면, 그 변수는 생존 여부에 큰 영향을 미쳤다고 볼 수 있습니다. 예를 들어, 모델이 나이, 성별, 탑승 클래스 등을 중요하게 사용했다면, 그 변수들이 생존에 중요한 영향을 미친 것이라고 판단할 수 있습니다.

2. 상관관계 분석: 상관관계는 두 변수 간의 관계를 나타냅니다. 만약 특정 변수가 Survived와 높은 상관관계를 가진다면, 그 변수는 생존 여부에 영향을 미칠 가능성이 높다고 볼 수 있습니다. 다만, 상관관계가 인과관계를 나타내는 것은 아니므로 주의해야 합니다.

3. 모델의 계수(Regression Coefficients): 로지스틱 회귀와 같은 모델에서는 각 변수의 값이 생존 여부에 긍정적인 영향을 주는지, 부정적인 영향을 주는지 알 수 있습니다. 값이 클수록 그 변수의 영향력이 크다고 판단할 수 있습니다.

결론적으로, 어떤 변수가 생존 여부에 영향을 미치는지 알고 싶다면, 해당 변수의 중요도나 상관관계를 살펴보고, 그 수치가 높다면 영향을 미칠 가능성이 크다고 해석할 수 있습니다.

감사합니다.

잔재미코딩 드림

0

gjtjqkr1

피처 중요도나 모델의 계수는 이미 머신러닝 모델일 돌린 후 뽑아낼 수 있다고 알고 있는데 그 후 피처 엔지니어링을 진행하면 되는게 맞다고 이해하면 되는건가요?

 

현재 학습 진행은 피처엔지니어링 파트 직전입니다.

자료 공유 질문

0

52

1

Ascii 에러 관련하여 질문드립니다

0

74

1

고차원 데이터 질문

0

47

0

test / train 데이터 나누기

0

93

1

세션4 범주형 데이터 분석 패턴 강의 질문

0

197

2

pandas 2.2.2, xgboost 2.1.3 에러 해결 방법

0

209

1

sklearn v1.5.1

0

166

1

머신러닝 적용을 위한 Feature Engineering 작업1

0

174

2

missingno 대체

0

163

1

scikit-learn 1.5.1 matplotlib 3.9.2

0

127

1

환불문의

0

260

1

자료공유를 받으려고 하는데 에러가 납니다.

0

154

1

iplot에서 항상 에러나는 분 안계신가용?

0

219

1

섹션4_인코딩 이해하고 적용해보기(원핫인코딩) 질문

0

184

1

df.corr(numeric_only=True).iplot() 에러 해결 어떻게 해야되나요?

0

275

1

주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문

0

242

1

3강 강의 자료 코드 관련 질문입니다

1

334

1

맥 사용자 mkdir .kaggle 했는데 파일이 안만들어집니다.

0

410

1

Bayesian Optimization에서 optimizer.maximize()함수를 더이상 지원 안한다고 합니다.

0

873

2

Bayesian Optimization LightGBM 적용

0

451

2

하이퍼 파라미터 튜닝 기법 적용하기 실행값이 미묘하게 달라요.

1

337

1

중복된 코드 수정 요청 - 자전거 공유 문제 이해와 EDA3

0

211

1

강의 중 에러 질문

0

736

1

cross_val_score 에러

0

455

1