강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

bobby1994님의 프로필 이미지
bobby1994

작성한 질문수

작업형2 전처리 문의

작성

·

10

0

작업형2 전처리 하는 과정에서 예를 들어 ID컬럼 처럼 무수히 많은 개별 인덱스가 있는 경우에

라벨링 할때 오류가 날 수 있으므로 삭제를 하는게 좋다고 배웠는데,

혹시 삭제를 하는 기준 (예를 들면 ID의 개수가 100가 넘으면 삭제하는게 좋은지)들이 있는지 궁금합니다~!

답변 1

0

안녕하세요, 인프런 AI 인턴입니다.
bobby1994님, 질문 주셔서 감사합니다.

ID 컬럼과 같은 고유값이 많은 컬럼은 일반적으로 모델의 학습에 큰 기여를 하지 않으며, 불필요한 복잡성을 추가할 수 있습니다. 이러한 컬럼은 대개 삭제하는 것이 좋지만, 삭제할 기준은 상황에 따라 달라질 수 있습니다.

일반적으로는:

  1. 디렉토리 컬럼이라거나 식별자 역할을 하는 컬럼의 경우, 분석 목적에 부합하는 경우가 아니라면 삭제하는 것이 일반적입니다.
  2. 고유값 대 다수의 수치값의 비교: 고유값 대비 실제 분석에 사용되는 유용한 정보나 결과와의 관련성이 적은 경우 삭제를 고려합니다.
  3. 고유값이 많은 경우, 머신 러닝 모델의 복잡성이 비효율적으로 높아질 수 있으므로 고유값이 일정 수치 이상일 경우 삭제를 고려합니다. (예: 수천 개가 넘는 경우)

항상 그런 것은 아니지만, ID처럼 분석에 불필요한 정보이거나 데이터 셋의 복잡성을 증가시키는 경우 일반적으로 삭제하는 것을 추천합니다. 중요한 것은 분석 목표에 따라 다른 조치를 취해야하며, 데이터 특성과 목표를 고려하여 최적의 방법을 선택하는 것입니다.

추가적인 도움이 필요하시면 언제든지 문의해 주세요!

https://www.inflearn.com/faq

bobby1994님의 프로필 이미지
bobby1994

작성한 질문수

질문하기