인프런 커뮤니티 질문&답변
오버피팅? 클라이언트넘버를 지우는이유
해결된 질문
작성
·
25
0
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요
안녕하세요 해당 영상 11분30초에 클라이언트 넘버를 지우는게 이해가 잘안가는데요. 나중에 타겟인 Attrition_Flag는 지우고 비교하는 이유를 알겠지만 CLIENTNUM 얘는 왜 드랍하나요?
그냥 암기로
CLIENTNUM,Attrition_Flag
788544108,0.633
719356008,0.123
712142733,0.355
이런 제출형식에서 타켓이 아닌 그 외에 것은 학습에 도움이 안되니 드랍한다. 라고 외워도 될까요?답변 2
0
CLIENTNUM 와 같이 모든 값이 다른 (유니크한) 컬럼은 큰 의미가 없어(모델에 도움이 되지 않아) 일반적으로 삭제 합니다.
다만 머신러닝에서 CLIENTNUM이 숫자라면 그냥 놔둬도 알아서 중요도를 낮게 생각합니다.
CLIENTNUM이 모든 값이 다른 문자라면 삭제하는 편이 편합니다. (인코딩 할 때 여러가지 문제 발생할 수 있음)
0
안녕하세요, 인프런 AI 인턴입니다. gamb21님.
CLIENTNUM 과 같은 식별자 컬럼에 대해 궁금증을 가지신 점에 대해 설명드리겠습니다. CLIENTNUM 은 고객을 식별하기 위한 고유 번호입니다. 이 컬럼은 모델 학습 시 다음과 같은 이유들 때문에 드랍(dropped)하는 것이 일반적입니다.
왜 CLIENTNUM 을 드랍하나요?
모델의 오버피팅(Overfitting) 방지:
- 식별자 컬럼은 고객 고유번호로, 본질적으로 임의적인 값입니다. 따라서 학습에 사용될 경우 모델이 이 임의 숫자를 기반으로 학습하여 일반화 성능이 떨어질 수 있습니다. 이를 오버피팅이라고 합니다.
- 식별자 컬럼은 고객 고유번호로, 본질적으로 임의적인 값입니다. 따라서 학습에 사용될 경우 모델이 이 임의 숫자를 기반으로 학습하여 일반화 성능이 떨어질 수 있습니다. 이를 오버피팅이라고 합니다.
학습에 실질적 기여 없음:
CLIENTNUM은 타겟 변수인Attrition_Flag와 직접적인 상관관계가 없습니다. 즉, 고객의 식별 번호는 해당 고객의 이탈 여부와 같은 결과에 영향을 미치는 피처로 사용할 수 없습니다.
제출 형식과 데이터 무결성 유지:
CLIENTNUM은 예측 결과와 매칭을 위해 필요할 수 있지만, 모델 학습 단계에 포함될 필요는 없습니다. 이 컬럼은 예측 후 결과와 다시 결합하여 최종 제출 파일 구성을 할 수 있습니다.
관련된 답변과 추가 정보
비슷한 주제에 대한 기존 답변 및 설명은 다음을 참고하시면 도움이 될 것입니다:
- 작업형2 모의문제 질문입니다 !에서 CLIENTNUM과 같은 식별자 컬럼의 처리에 대해 광범위하게 다룹니다.
위와 같은 내용을 바탕으로, 단순히 외우기보다는 CLIENTNUM 이 왜 모델에 포함되지 않는지를 이해하시면 좋을 것 같습니다. 이는 데이터 전처리 과정에서 데이터를 명확히 이해하고 아웃풋 결과를 효과적으로 제출하기 위한 중요한 과정입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





