# credit_card_balance 데이터셋 피쳐엔지니어링

Question

선생님 안녕하세요 피쳐엔지니어링을 하면서 아래 궁금증이 생겼습니다. 보통 dict aggregation으로 통계변수를 생성할때 (알려주신 루틴이 정말 효율적인 코드를 작성하는데 도움이 됩니다.) min,mean,max를 사용하시는데요 ID는 cnt만 사용하는 것도 이해가 되는데 어떤 경우에는 일수관련한 변수인데 min이 없더라구요 POS_IS_DPD' 그리고 어떤 경우에는 sum이 추가되어 있구 (예) DAYS_ENTRY_PAYMENT) 이런 결정은 수차례 실험후 내리신 결정인가요? 아니면 어떤 규칙같은것이 있을까요? 강의 내용은 없어서 노하우를 전수받고 싶습니다. (사실 이런부분이 제일 판단하기가 어려워서요, 기본적은 가이드라인을 갖고 피쳐엔지니어링을 하고 싶습니다. )

dooleyz3525 · Answer

안녕하십니까, 피처 엔지니어링에 규칙이나 가이드라인을 정하기는 어렵습니다. 경험적으로, 또는 업무적으로 중요한 특성을 가지고 있는 피처들을 추측하여 여러가지 시도들을 해보는 것이 가이드라인이라면 가이드라인 일 수 있습니다. 유연하게 피처들을 생산하는 시도를 중시하는 것이 좋을 것 같습니다. 그리고 제 실습에는 어떤 경우에는 sum()이 들어가 있고, 어떤 경우에는 안들어가 있을 수 있는데, 이건 너무 피처들을 많이 만드는 것 같아서 제가 배제를 하거나, 돌려 봤는데, 큰 의미가 없어서 그런 경우들이 있습니다. 일반적으로 AutoML 툴 같은 경우는 min, max, sum, avg 등을 기계적으로 수행해서 추가적인 피처들을 만드는 경향들이 있지만, 이 보다는 업무를 이해하고 해당 업무에 적합한 피처들을 생성하는게 더 중요합니다. 그런데 이를 위해서는 업무를 이해할 필요가 있으며, 시간적인 투자가 필요합니다(본 강의는 모델 구축을 위해서는 업무 이해가 중요하다라는 큰 맥락을 가지고 만들어 졌습니다.) 요약하자면 피처 엔지니어링에 정식적인 가이드라인은 없지만, 강의에 나와있는 여러가지 피처엔지니어링 기법을 기반하여 본인만의 요령을 익힌 뒤 업무적인 특성을 파악하여 좀 더 임팩트 있는 피처들을 생성하는 것이 제가 생각하는 가이드라인이라고 할 수 있을 것 같습니다. 감사합니다.