인프런 커뮤니티 질문&답변

Jaemin Kim님의 프로필 이미지
Jaemin Kim

작성한 질문수

캐글 Advanced 머신러닝 실전 박치기

NULL 처리 관련 질문입니다.

작성

·

268

0

안녕하세요, 강의 너무 잘 들었습니다.

이번 강의에서는 LightGBM 만 썼는데, 나중에 XGBoost나 랜덤 포레스트 같은 다른 알고리즘을 쓰고 스태킹을 고려한다면, 다른 알고리즘 쓸 때 Null은 그냥 아무 숫자나 할당하면 되려나요? LightGBM은 Null을 알아서 분류한다고 하셔서 다른 것을 쓸때는 어떤식으로 하면 좋을 지 궁금해서 질문 올려봅니다.

감사합니다.

답변 1

1

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

일단 XGboost 역시 Null을 자체 처리 할 수 있습니다. 하지만 다른 사이킷런 GBM은 Null 값을 다른 값으로 대체 해주셔야 합니다. 여러가지 대체 기준이 있을 수 있지만, 간단하게 아래와 같은 기준을 적용해 볼수 있습니다.

1. 특정 컬럼에 Null값이 대부분이면 아예 해당 컬럼 삭제를 고려

2. 연속형 feature에 Null값이 많을 경우 평균값으로 일괄 대체 하거나, 특정값(예를 들어 -999)으로 대체 고려

3. 카테고리 feature에 Null이 많을 경우는 새로운 category 값으로 대체 또는 가장 많은 category값으로 통합 고려.

감사합니다.

Jaemin Kim님의 프로필 이미지
Jaemin Kim
질문자

빠른 답변 감사드립니다!

Jaemin Kim님의 프로필 이미지
Jaemin Kim

작성한 질문수

질문하기