inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

캐글 Advanced 머신러닝 실전 박치기

application 데이터 세트 Feature Engineering 수행, 두번째 모델 학습 및 성능 평가

상관관계 높은 feature들에 대해 질문드립니다.

1132

Jaewoo Choi

작성한 질문수 37

0

안녕하세요 선생님 :) 
항상 좋은 강의 감사합니다.

다름이 아니라 상관관계가 높은 변수들을 통해 파생변수를 만들어주면, 기존의 변수들은 drop 시켜야하는건가요? 아니면 그대로 들고가는것인가요? 

 

감사합니다

머신러닝 배워볼래요? kaggle

답변 1

2

권 철민

안녕하십니까, 

잘 듣고 계시다니 다행입니다. 

정확한건 학습후 테스트 데이터로 모델 성능을 비교해보는 것이 정답일 것이나, 경험상 기존의 변수들을 그대로 들고가는 것이 더 좋습니다.  상관 관계가 극도로 높다면 이들 feature 들을 일단 함 정리한 후에 파생 변수를 만드는게 좋을 수도 있지만, 이 또한 경험적으로 높은 상관관계 feature들을 유지한 채로 파생 변수를 만드는것이 더 좋을 가능성도 있습니다. 

일반적으로 선형 머신러닝 모델의 경우 상관관계가 높은 변수들이 많아서 이들 변수들을 모두 다 모델에 적용할 경우 다중 공선성의 영향을 받을 수도 있지만 그렇지 않을 수도 있습니다. 성능 테스트 결과를 보시고 판단해 보는것이 좋습니다.

요약하자면 상관관계가 높은 변수들을 기반으로 파생 변수들을 만들었다고 기존 변수들을 drop할 필요는 없습니다. 다만 선형 모델의 경우 상관 관계가 너무 높은 변수들이 무척 많다면 이들 변수들을 정리한 후에 모델에 적용하는 것이 좋을 수도 있습니다. 

감사합니다.  

0

Jaewoo Choi

감사합니다

sql사용

0

58

2

좋은 강의 감사드립니다.

0

82

2

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

0

261

2

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

0

621

1

안녕하세요 선생님

0

238

1

권철민교수님 진심으로 감사드립니다.

0

321

1

안녕하세요 선생님

0

358

1

# credit_card_balance 데이터셋 피쳐엔지니어링

0

273

1

초거대 데이터셋을 Submission하려면?

0

194

1

Library 관련 질문

0

356

3

최적화 함수 에러

0

598

4

LightGBM Iteration관련

0

432

2

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

0

208

1

코드를 실행했는데 오류가 발생합니다

0

2000

2

bayes_opt 회귀 모델에 적용하려면..

0

270

1

타겟값의 로그변환에 대해서

0

786

1

아나콘다 환경설정

0

464

1

깃허브 주소 문의드립니다.

0

363

1

손실함수에 대한 질문

0

351

1

card_bal 데이터셋 시각화 관련 질문입니다

0

237

1

LGBM null값 처리에 관해 질문있습니다

0

545

1

컬럼 관련 질문

0

283

1

히스토그램 x 값

0

368

1

n_iter 횟수 넘음 질문

0

498

2