# credit_card_balance 데이터셋 피쳐엔지니어링
268
5 asked
선생님 안녕하세요
피쳐엔지니어링을 하면서 아래 궁금증이 생겼습니다.
보통 dict aggregation으로 통계변수를 생성할때 (알려주신 루틴이 정말 효율적인 코드를 작성하는데 도움이 됩니다.)
min,mean,max를 사용하시는데요 ID는 cnt만 사용하는 것도 이해가 되는데 어떤 경우에는 일수관련한 변수인데 min이 없더라구요
POS_IS_DPD'그리고 어떤 경우에는 sum이 추가되어 있구 (예) DAYS_ENTRY_PAYMENT)
이런 결정은 수차례 실험후 내리신 결정인가요?
아니면 어떤 규칙같은것이 있을까요?
강의 내용은 없어서 노하우를 전수받고 싶습니다.
(사실 이런부분이 제일 판단하기가 어려워서요, 기본적은 가이드라인을 갖고 피쳐엔지니어링을 하고 싶습니다. )
Answer 1
0
안녕하십니까,
피처 엔지니어링에 규칙이나 가이드라인을 정하기는 어렵습니다.
경험적으로, 또는 업무적으로 중요한 특성을 가지고 있는 피처들을 추측하여 여러가지 시도들을 해보는 것이 가이드라인이라면 가이드라인 일 수 있습니다.
유연하게 피처들을 생산하는 시도를 중시하는 것이 좋을 것 같습니다. 그리고 제 실습에는 어떤 경우에는 sum()이 들어가 있고, 어떤 경우에는 안들어가 있을 수 있는데, 이건 너무 피처들을 많이 만드는 것 같아서 제가 배제를 하거나, 돌려 봤는데, 큰 의미가 없어서 그런 경우들이 있습니다.
일반적으로 AutoML 툴 같은 경우는 min, max, sum, avg 등을 기계적으로 수행해서 추가적인 피처들을 만드는 경향들이 있지만, 이 보다는 업무를 이해하고 해당 업무에 적합한 피처들을 생성하는게 더 중요합니다. 그런데 이를 위해서는 업무를 이해할 필요가 있으며, 시간적인 투자가 필요합니다(본 강의는 모델 구축을 위해서는 업무 이해가 중요하다라는 큰 맥락을 가지고 만들어 졌습니다.)
요약하자면 피처 엔지니어링에 정식적인 가이드라인은 없지만, 강의에 나와있는 여러가지 피처엔지니어링 기법을 기반하여 본인만의 요령을 익힌 뒤 업무적인 특성을 파악하여 좀 더 임팩트 있는 피처들을 생성하는 것이 제가 생각하는 가이드라인이라고 할 수 있을 것 같습니다.
감사합니다.
sql사용
0
46
2
좋은 강의 감사드립니다.
0
73
2
8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문
0
246
2
사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다
0
601
1
안녕하세요 선생님
0
228
1
권철민교수님 진심으로 감사드립니다.
0
319
1
안녕하세요 선생님
0
351
1
초거대 데이터셋을 Submission하려면?
0
190
1
Library 관련 질문
0
351
3
최적화 함수 에러
0
589
4
LightGBM Iteration관련
0
423
2
안녕하세요 교수님 vm 관련해서 질문이 있습니다.
0
204
1
코드를 실행했는데 오류가 발생합니다
0
1981
2
bayes_opt 회귀 모델에 적용하려면..
0
267
1
타겟값의 로그변환에 대해서
0
781
1
아나콘다 환경설정
0
460
1
깃허브 주소 문의드립니다.
0
360
1
손실함수에 대한 질문
0
344
1
card_bal 데이터셋 시각화 관련 질문입니다
0
231
1
LGBM null값 처리에 관해 질문있습니다
0
540
1
컬럼 관련 질문
0
281
1
히스토그램 x 값
0
365
1
n_iter 횟수 넘음 질문
0
492
2
학습데이터 테스트데이터 분리
0
324
1

