작성
·
268
0
안녕하세요, 강의 너무 잘 들었습니다.
이번 강의에서는 LightGBM 만 썼는데, 나중에 XGBoost나 랜덤 포레스트 같은 다른 알고리즘을 쓰고 스태킹을 고려한다면, 다른 알고리즘 쓸 때 Null은 그냥 아무 숫자나 할당하면 되려나요? LightGBM은 Null을 알아서 분류한다고 하셔서 다른 것을 쓸때는 어떤식으로 하면 좋을 지 궁금해서 질문 올려봅니다.
감사합니다.
답변 1
1
안녕하십니까,
일단 XGboost 역시 Null을 자체 처리 할 수 있습니다. 하지만 다른 사이킷런 GBM은 Null 값을 다른 값으로 대체 해주셔야 합니다. 여러가지 대체 기준이 있을 수 있지만, 간단하게 아래와 같은 기준을 적용해 볼수 있습니다.
1. 특정 컬럼에 Null값이 대부분이면 아예 해당 컬럼 삭제를 고려
2. 연속형 feature에 Null값이 많을 경우 평균값으로 일괄 대체 하거나, 특정값(예를 들어 -999)으로 대체 고려
3. 카테고리 feature에 Null이 많을 경우는 새로운 category 값으로 대체 또는 가장 많은 category값으로 통합 고려.
감사합니다.
빠른 답변 감사드립니다!