작성
·
153
0
답변 1
0
안녕하십니까,
1. 별도의 Feature engineering이 시도해 볼만하다고 생각하면 하시는게 좋습니다. 답이 있는게 아닙니다. 여러가지 수행해보고 좋으면 채택하는 방식을 취하시면 됩니다. 물론 이 과정에서 좀 더 창의성(?) 있는 feature 들을 추출하는 노하우가 필요하긴 합니다만, 꾸준히 연습해보면 그 길에 다다를수 있을 것입니다.
말씀하신대로 1:(20~25), 2:(25-30) 과 같이 1, 2가 연령대 코드라면 이걸 그대로 이용하셔도 좋고, 값을 가공해서 1,2 가 20대라면 1과 2를 합쳐서 20대라는 코드값을 주셔서 가공하셔도 될 것 같습니다. 20대는 A, 30대는 B와 같이 부여하셔도 무방합니다. 다만 예상으로는 크게 성능 차이가 없을것 같아서 그대로 하시는게 좋을 것도 같습니다.
2. 범주형과 연속형 피처를 섞는다는게 Feature 자체를 더한다는 의미 보다는 범주형 코드값으로 Group by를 해서 연속형 피처값의 집계값을 도출하는 방식을 많이 사용합니다. 가령 성별이라는 범주형 코드와 소득이라는 연속형 피처가 있으면 이걸 select avg(소득), max(소득), min(소득) from data group by 성별 로 해서 성별에 따른 평균, 최대, 최소 소득 값을 얻는 방식으로 feature engineering을 할 수 있습니다.
3. tree기반일 경우 정규화를 안해 주셔도 성능과 큰 상관이 없습니다.
4. 네, 맞습니다. 학습시에 feature를 log 로 가공했으면 test 시에도 해당 feature 를 log로 가공해 줘야 합니다.
5. 네, RMSE가 모든 상황에서 좋은 평가 지표라고 할 수는 없습니다. RMSE는 일반적으로 실제 Target 값과 차이가 많이 나는 예측값이 많을 수록 Penalty를 부여하는 방식입니다. 즉 차이의 제곱을 이용하는 방식이므로 차이가 많이나는 예측을 할 수록 오차값이 커집니다. 상황에 따라 RMSE보다 MAE를 더 선호 할 수도 있습니다.
감사합니다.