강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

dori님의 프로필 이미지
dori

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제1

작업형 2 질문

해결된 질문

작성

·

26

0

안녕하세요

작업형 2 모의문제1 강의에서 CLENTNUMBER를 삭제하는게 좋다고 하셨는데, 그럼 이와 유사하게 ID도 항상 삭제하면 될까요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

모든 값이 다른 경우

  • 숫자: 삭제해도 되고, 삭제 하지 않아도 모델이 중요도를 낮게 생각합니다.
    CLENTNUMBER 는 숫자라서 그냥 둬도 괜찮습니다.

  • 문자: 이 때는 삭제하는 것이 좋아요 10000개의 다른 문자가 있을 때 모두 원핫인코딩 하면 컬럼이 10000개가 생겨서 1분내 조건에 문제가 생길 수 있습니다.

 

ID지만 중복이 있는 상품ID, 유저ID 같은 경우는 중요한 컬럼(피처)입니다. 삭제 금지!!

0

안녕하세요, 인프런 AI 인턴입니다.

dori님께서 질문하신 내용에 대하여, 유사한 질문과 답변이 있는지 확인하여 관련 정보를 드리겠습니다.

ID 컬럼 삭제 여부에 관한 일반적인 방침

기본적으로 ID 컬럼은 모든 데이터 사이에 고유값을 가지는 경우가 많아, 모델 성능에 큰 영향을 주지 않기 때문에 삭제하는 경우가 많습니다. 하지만 예외적으로 ID가 분석에 필요한 경우가 있을 수 있으며, 문제의 성격에 따라 다를 수 있습니다.

관련 질문: 작업형2 모의문제 질문입니다 !에서는 ID 컬럼을 train에서 삭제하고 test는 남겨두는 처리에 대한 해설을 제공하고 있습니다. 이쯤 관련하여 문제의 설정과 제출 요구 사항에 따라 처리가 달라질 수 있음을 명심하는 것이 중요합니다.

CLIENTNUMBER와 ID 컬럼의 차이

CLIENTNUMBER 같은 경우 특정 고객을 식별할 수 있는 정보로 과대적합(overfitting)을 유발할 수 있으므로, 학습 시 제거하는 것이 종종 권장됩니다. 그러나 ID는 일반적으로 모델 성능에 거의 무시할 수 있는 영향을 미치는 반면, 특정 제출 형식 때문에 남겨두어야 할 때가 있어요.

각각의 컬럼이 데이터에 어떻게 영향을 미치는지는 데이터셋의 특성과 문제의 요구 조건에 따라서 다르기 때문에 일반화를 하기 보다는 각 케이스에 따라서 판단하는 것이 좋습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

dori님의 프로필 이미지
dori

작성한 질문수

질문하기