Feature engineering 질문입니다
174
작성한 질문수 2
답변 1
0
안녕하십니까,
1. 별도의 Feature engineering이 시도해 볼만하다고 생각하면 하시는게 좋습니다. 답이 있는게 아닙니다. 여러가지 수행해보고 좋으면 채택하는 방식을 취하시면 됩니다. 물론 이 과정에서 좀 더 창의성(?) 있는 feature 들을 추출하는 노하우가 필요하긴 합니다만, 꾸준히 연습해보면 그 길에 다다를수 있을 것입니다.
말씀하신대로 1:(20~25), 2:(25-30) 과 같이 1, 2가 연령대 코드라면 이걸 그대로 이용하셔도 좋고, 값을 가공해서 1,2 가 20대라면 1과 2를 합쳐서 20대라는 코드값을 주셔서 가공하셔도 될 것 같습니다. 20대는 A, 30대는 B와 같이 부여하셔도 무방합니다. 다만 예상으로는 크게 성능 차이가 없을것 같아서 그대로 하시는게 좋을 것도 같습니다.
2. 범주형과 연속형 피처를 섞는다는게 Feature 자체를 더한다는 의미 보다는 범주형 코드값으로 Group by를 해서 연속형 피처값의 집계값을 도출하는 방식을 많이 사용합니다. 가령 성별이라는 범주형 코드와 소득이라는 연속형 피처가 있으면 이걸 select avg(소득), max(소득), min(소득) from data group by 성별 로 해서 성별에 따른 평균, 최대, 최소 소득 값을 얻는 방식으로 feature engineering을 할 수 있습니다.
3. tree기반일 경우 정규화를 안해 주셔도 성능과 큰 상관이 없습니다.
4. 네, 맞습니다. 학습시에 feature를 log 로 가공했으면 test 시에도 해당 feature 를 log로 가공해 줘야 합니다.
5. 네, RMSE가 모든 상황에서 좋은 평가 지표라고 할 수는 없습니다. RMSE는 일반적으로 실제 Target 값과 차이가 많이 나는 예측값이 많을 수록 Penalty를 부여하는 방식입니다. 즉 차이의 제곱을 이용하는 방식이므로 차이가 많이나는 예측을 할 수록 오차값이 커집니다. 상황에 따라 RMSE보다 MAE를 더 선호 할 수도 있습니다.
감사합니다.
sql사용
0
58
2
좋은 강의 감사드립니다.
0
82
2
8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문
0
261
2
사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다
0
621
1
안녕하세요 선생님
0
238
1
권철민교수님 진심으로 감사드립니다.
0
321
1
안녕하세요 선생님
0
358
1
# credit_card_balance 데이터셋 피쳐엔지니어링
0
273
1
초거대 데이터셋을 Submission하려면?
0
194
1
Library 관련 질문
0
356
3
최적화 함수 에러
0
598
4
LightGBM Iteration관련
0
432
2
안녕하세요 교수님 vm 관련해서 질문이 있습니다.
0
208
1
코드를 실행했는데 오류가 발생합니다
0
2000
2
bayes_opt 회귀 모델에 적용하려면..
0
270
1
타겟값의 로그변환에 대해서
0
786
1
아나콘다 환경설정
0
464
1
깃허브 주소 문의드립니다.
0
363
1
손실함수에 대한 질문
0
351
1
card_bal 데이터셋 시각화 관련 질문입니다
0
237
1
LGBM null값 처리에 관해 질문있습니다
0
545
1
컬럼 관련 질문
0
283
1
히스토그램 x 값
0
368
1
n_iter 횟수 넘음 질문
0
498
2





