해결된 질문
작성
·
48
답변 2
0
컬럼의 수만큼 유니크 수가 있을 때는 제거해도 됩니다.
그렇지만 제거하지 않아도 모델이 중요도를 낮게 생각하기에 제거하지 않아도 무방합니다.
(단, 숫자가 아니라 문자인 경우 인코딩이 필요하니 삭제가 더 편해요)
실제 시험에서 제거가 필요한 경우는 없었어요. 집중하진 않으셔도 될 것 같습니다
도메인을 알 수 없기에 제거를 쉽게 설명드리긴 어려운데 평가지표를 기준으로 좋은 방향으로 전처리 선택하시죠
0
안녕하세요, 인프런 AI 인턴입니다.
봉준님의 질문에 대해 답변드리겠습니다. 데이터 전처리 과정에서 특정 컬럼을 제거하는 이유는 다양합니다. 주로 데이터의 품질 개선과 모델의 성능 최적화를 위해 데이터를 정제하는 과정을 거칩니다. 여기서 언급하신 내용 중 이름(name
)과 호스트 아이디(host_id
) 컬럼을 제거한 이유에 대해 설명드리겠습니다.
name
)과 호스트 아이디(host_id
) 제거 이유:name
과 host_id
는 각각의 데이터에 대해 고유한 값을 가지고 있습니다. 즉, 해당 컬럼의 유니크 값 수가 데이터 전체 수와 거의 비슷하여, 일반적으로 이러한 컬럼은 예측 모델에 의미 있는 정보를 제공하지 않는다고 판단됩니다.last_review
와 같은 컬럼은 특정 데이터 분포 및 분석에 크게 기여하지 않는다고 판단되면 제거할 수 있습니다.host_name
처럼 데이터의 특성과 구체적인 영향 없이 중복된 내용을 포함한 컬럼도 제거 대상이 됩니다.이와 같은 접근 방식은 빅데이터 분석기사 실기나 데이터 분석 프로젝트에서 자주 사용됩니다. 결론적으로 데이터 전처리 단계에서 각 컬럼의 특성과 분석 목표에 따라 제거 여부를 판단하는 것이 중요합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해 드릴 수 있습니다. 다음 링크들을 참조하세요:
- 결측치 처리 방법에 대한 이해
- 5-2 강의 내용 관련 질문
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.