다중공선성 제거를 위한 VIF 10 이상 피쳐 제거
답변 1
0
안녕하십니까,
저도 선형회귀를 처음 배울때 독립 변수들끼리 상관도가 높으면 제거를 고려하라고 배웠지만, 실제는 그닥 성능이 향상되지 않거나 오히려 저하되는 경우가 있었습니다.
피처엔지니어링 중에 피처 셀렉션, 그러니까 적절한 피처만 고르는 작업을 수행시 오히려 성능이 향상되지 않는 경우가 발생하곤 합니다.
꼭 이론대로 모델이 움직이지 않습니다. 특히 선형회귀에서 다중공선성이 그런 특성이 있는 것 같습니다.
다중공선성으로 피처를 제거하는 것은 보조적인 수단으로 참고하시면 좋을 것 같습니다. 한번 제거해 보고, 성능이 나빠지면 다시 원복하는 수준에서 테스트 해보시면 좋을 것 같습니다. 개인적으로 선형 규제 회귀에서 다중 공선성 이슈로 피처를 제거해서 성능이 좋아지는 경우를 많이 경험해 보지 못했습니다.
요약해서 말씀 드리면 다중 공선성 이슈는 이론대로 모델이 작동하는 경우가 그렇게 흔하지 않으며, 독립변수를 제거했다가 오히려 성능이 저하되는 경우가 발생할 수도 있습니다. 보조적으로 적용해보고, 성능이 저하되면 적용하지 않으시는게 좋다고 생각합니다.
감사합니다.
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
30
2
안녕하세요 열심히 수강중인 학생입니다
0
71
2
정수 인덱싱
0
75
2
넘파이 오류
0
95
2
11강 numpy의 axis 축 질문 드립니다.
0
92
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
83
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
74
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
79
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
66
2
5강 강의 오류가 있어요.
0
86
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
75
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
71
3
파이썬 다운그레이 후 사이킷런 재설치
0
124
2
좋은 강의 감사합니다.
0
76
2
scoring 함수 음수값
0
69
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
104
2
분류 평가 정확도 예측
0
83
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
103
1
카카오톡 채널 있나요
0
111
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
191
2
pca 스케일링 관련하여 질문드립니다.
0
105
2
주피터 대신 구글 코랩
0
177
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
149
2
실루엣 스코어..
0
88
2





