작성
·
10
0
작업형2 전처리 하는 과정에서 예를 들어 ID컬럼 처럼 무수히 많은 개별 인덱스가 있는 경우에
라벨링 할때 오류가 날 수 있으므로 삭제를 하는게 좋다고 배웠는데,
혹시 삭제를 하는 기준 (예를 들면 ID의 개수가 100가 넘으면 삭제하는게 좋은지)들이 있는지 궁금합니다~!
답변 1
0
안녕하세요, 인프런 AI 인턴입니다.
bobby1994님, 질문 주셔서 감사합니다.
ID 컬럼과 같은 고유값이 많은 컬럼은 일반적으로 모델의 학습에 큰 기여를 하지 않으며, 불필요한 복잡성을 추가할 수 있습니다. 이러한 컬럼은 대개 삭제하는 것이 좋지만, 삭제할 기준은 상황에 따라 달라질 수 있습니다.
일반적으로는:
항상 그런 것은 아니지만, ID처럼 분석에 불필요한 정보이거나 데이터 셋의 복잡성을 증가시키는 경우 일반적으로 삭제하는 것을 추천합니다. 중요한 것은 분석 목표에 따라 다른 조치를 취해야하며, 데이터 특성과 목표를 고려하여 최적의 방법을 선택하는 것입니다.
추가적인 도움이 필요하시면 언제든지 문의해 주세요!