상관관계 높은 feature들에 대해 질문드립니다.

Question

안녕하세요 선생님 :) 항상 좋은 강의 감사합니다. 다름이 아니라 상관관계가 높은 변수들을 통해 파생변수를 만들어주면, 기존의 변수들은 drop 시켜야하는건가요? 아니면 그대로 들고가는것인가요? 감사합니다

권 철민 · Answer

안녕하십니까, 잘 듣고 계시다니 다행입니다. 정확한건 학습후 테스트 데이터로 모델 성능을 비교해보는 것이 정답일 것이나, 경험상 기존의 변수들을 그대로 들고가는 것이 더 좋습니다. 상관 관계가 극도로 높다면 이들 feature 들을 일단 함 정리한 후에 파생 변수를 만드는게 좋을 수도 있지만, 이 또한 경험적으로 높은 상관관계 feature들을 유지한 채로 파생 변수를 만드는것이 더 좋을 가능성도 있습니다. 일반적으로 선형 머신러닝 모델의 경우 상관관계가 높은 변수들이 많아서 이들 변수들을 모두 다 모델에 적용할 경우 다중 공선성의 영향을 받을 수도 있지만 그렇지 않을 수도 있습니다. 성능 테스트 결과를 보시고 판단해 보는것이 좋습니다. 요약하자면 상관관계가 높은 변수들을 기반으로 파생 변수들을 만들었다고 기존 변수들을 drop할 필요는 없습니다. 다만 선형 모델의 경우 상관 관계가 너무 높은 변수들이 무척 많다면 이들 변수들을 정리한 후에 모델에 적용하는 것이 좋을 수도 있습니다. 감사합니다.