인프런 커뮤니티 질문&답변

Jaewoo Choi님의 프로필 이미지
Jaewoo Choi

작성한 질문수

캐글 Advanced 머신러닝 실전 박치기

application 데이터 세트 Feature Engineering 수행, 두번째 모델 학습 및 성능 평가

상관관계 높은 feature들에 대해 질문드립니다.

작성

·

1K

0

안녕하세요 선생님 :) 
항상 좋은 강의 감사합니다.

다름이 아니라 상관관계가 높은 변수들을 통해 파생변수를 만들어주면, 기존의 변수들은 drop 시켜야하는건가요? 아니면 그대로 들고가는것인가요? 

 

감사합니다

답변 1

2

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

잘 듣고 계시다니 다행입니다. 

정확한건 학습후 테스트 데이터로 모델 성능을 비교해보는 것이 정답일 것이나, 경험상 기존의 변수들을 그대로 들고가는 것이 더 좋습니다.  상관 관계가 극도로 높다면 이들 feature 들을 일단 함 정리한 후에 파생 변수를 만드는게 좋을 수도 있지만, 이 또한 경험적으로 높은 상관관계 feature들을 유지한 채로 파생 변수를 만드는것이 더 좋을 가능성도 있습니다. 

일반적으로 선형 머신러닝 모델의 경우 상관관계가 높은 변수들이 많아서 이들 변수들을 모두 다 모델에 적용할 경우 다중 공선성의 영향을 받을 수도 있지만 그렇지 않을 수도 있습니다. 성능 테스트 결과를 보시고 판단해 보는것이 좋습니다.

요약하자면 상관관계가 높은 변수들을 기반으로 파생 변수들을 만들었다고 기존 변수들을 drop할 필요는 없습니다. 다만 선형 모델의 경우 상관 관계가 너무 높은 변수들이 무척 많다면 이들 변수들을 정리한 후에 모델에 적용하는 것이 좋을 수도 있습니다. 

감사합니다.  

Jaewoo Choi님의 프로필 이미지
Jaewoo Choi
질문자

감사합니다

Jaewoo Choi님의 프로필 이미지
Jaewoo Choi

작성한 질문수

질문하기