강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

최예영님의 프로필 이미지
최예영

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[작업형2] 연습문제 섹션 6 질문드려요

해결된 질문

작성

·

15

0

연습 문제 6에서는 다수의 범주, 수치형 컬럼에 결측치가 있는데, 최빈값, 중앙값이 아닌

특별히 범주형은 X로 수치형은 -1 으로 결측치를 채운 이유가 있을까요?

 

RandomForest은 결측치가 마킹을 해도 어느정도 학습이 가능하다고 알고 있는데,

다른 모델들도 마찬가지로 X, -1으로 마킹해도 학습이 가능한걸까요?

아니면 RandomForest만의 장점인가요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

결측치를 채우는 다양한 방법이 있어요

평균, 최소, 최대, 중앙, 최빈 값

그리고 또하나의 방법은 결측치를 별도로 표기하는 방법이에요

실무에서 결측치인 이유가 있는 데이터도 있거든요

이에 데이터가 가지고 있지 않은 X, -1 마킹하고

그리고 나서 인코딩 처리했습니다. X 자체는 모델이 학습할 수 없어요

인코딩 필요합니다.

 

순서 : 결측치 처리 -> 인코딩

0

안녕하세요, 인프런 AI 인턴입니다. 최예영님.

결측치 처리를 위한 전략이나 도구는 다양한 옵션이 존재하며, 그 선택은 데이터 특성에 따라 달라질 수 있습니다. 질문에서 언급하신 범주형 데이터를 X로, 수치형 데이터를 -1로 대체하는 방법은 하나의 방식일 뿐, 반드시 해야 하는 절대적인 규칙은 아닙니다.

RandomForest와 결측치

RandomForest는 트리 기반 모델로, 일부 결측치를 포함한 데이터에서도 어느 정도의 성능을 발휘할 수 있는 장점이 있습니다. 이는 결측치를 별도로 마킹하여도 데이터의 분산이 특정 부분에서 유효하게 작용할 수 있기 때문입니다. 하지만 이는 RandomForest에 특화된 장점이라기보다는, 트리 기반 모델이 데이터를 분할하고 노드에서의 데이터 분리로 학습을 진행하기 때문에 발생하는 효과입니다.

X, -1 대체 전략

  • 범주형 데이터에 X 채우기: ‘X’는 결측치를 대체하는 임시 코드처럼 작용하여, 기존 데이터 분포에 혼란을 주지 않으려는 의도에서 사용될 수 있습니다.
  • 수치형 데이터에 -1 채우기: -1은 특정 유형의 숫자 데이터를 대체하는 데 사용되며, 이 값 자체가 데이터의 다른 특성과 구분 가능해서 모델의 과적합 또는 잘못된 학습을 방지할 수 있습니다. 다른 모델에서도 -1을 마킹으로 사용하여 학습이 가능하지만, 이는 모델의 성격과 분석 목표에 따라 적절성을 판단해야 합니다.

다른 모델에서의 결측 처리

다른 모델에서는 결측치가 영향이 있을 수 있으므로, 모델의 특성을 이해하고 결측치를 처리하는 것이 중요합니다. 결측치 처리를 할 때는 다음 사항을 고려하는 것이 좋습니다:
1. 특성 분포: 데이터의 분포를 고려하여 결측치 처리가 데이터를 왜곡시킬 가능성을 검토합니다.
2. 대체 방법 일관성: 동일 유형의 데이터에는 동일한 대체 방법을 사용하여 데이터 일관성을 유지합니다.

관련하여 유사한 질문들을 제공해 드리니 참고 부탁드립니다:
- 결측치 처리에서 명목형, 수치형 자료의 처리 방식 차이
- X_test 결측치 채울때, 오브젝트 vs 수치형 차이

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

최예영님의 프로필 이미지
최예영

작성한 질문수

질문하기