Feature Generation에 관하여

Question

안녕하세요, 좋은 강의 잘 듣고있습니다. Feature Generation을 할 때, (Ridge같은 규제화를 적용하면서) 성능이 좋아지는 이유가 있을까요? 단지 특징들의 곱을 추가했을 뿐인데 성능 향상이 되는게 궁금합니다. 또, 만약 degree=2의 generating으로도 언더피팅이 일어날 경우 degree=3 의 generating을 하면 성능향상이 될 가능성이 있을까요? 마지막으로, Generation을 한 후에 상관관계를 파악한 뒤 Selection을 하면 대체로 성능이 증가할 까요? 답변 부탁드립니다! 감사합니다!

AISchool · Answer

네. 안녕하세요~. 반갑습니다. Feature Generation을 할 때, (Ridge같은 규제화를 적용하면서) 성능이 좋아지는 이유가 있을까요? 단지 특징들의 곱을 추가했을 뿐인데 성능 향상이 되는게 궁금합니다. -> 성능이 향상되느냐 아니냐는 상황에 따라 다르며, 특징들의 곱이 타겟 y값과 연관관계를 갖는 경우에 도움이 될 수 있습니다. (그렇지 않을 경우 도움이 되지 않을수도 있습니다.) 보스턴 부동산 예제의 경우 (저소득층비율*범죄율) 이런 특징이 집값 y와 연관관계를 갖기 때문에 성능이 향상된다고 생각할 수 있을 것 같습니다. 또, 만약 degree=2의 generating으로도 언더피팅이 일어날 경우 degree=3 의 generating을 하면 성능향상이 될 가능성이 있을까요? -> 위에 말씀드린대로 성능이 향상되느냐 아니냐는 상황에 따라 다르며 말씀해주신대로 동작할 가능성도 있습니다. 마지막으로, Generation을 한 후에 상관관계를 파악한 뒤 Selection을 하면 대체로 성능이 증가할 까요? -> 성능이 향상되느냐 아니냐는 상황에 따라 다르며^^. Selection을 통해 성능이 향상될수도 있습니다. 머신러닝의 상당부분이 case by case 라서 딱 명확한 정답이 없다는 점은 참고부탁드립니다~. 감사합니다.