작성
·
22
답변 3
0
0
모든 값이 서로 다른 id 컬럼은 일반적으로 삭제하지만,
머신러닝 모델은 이런 컬럼의 중요도를 자동으로 낮게 판단하므로 삭제하지 않아도 무방합니다. 🙂
네 무관합니다. 단, 모든 값이 다른 경우에만 해당합니다.
만약 숫자형 id라면 그대로 두셔도 됩니다.
모든 값이 다른 문자형 id라면 인코딩 과정이 필요하므로 삭제를 권장합니다.
상품 ID처럼 일부 중복이 있는 컬럼이라면 삭제하지 마세요.
또한, train의 카테고리가 test의 카테고리를 포함하는 경우,
아래처럼 라벨 인코딩(Label Encoding) 으로 처리 가능합니다.
train: 사과, 배, 딸기 test:사과, 배
반면, test에 train에 없는 카테고리가 존재한다면,
두 데이터를 합친 후 인코딩해야 합니다.
train: 사과, 딸기
test: 사과, 배
0
안녕하세요, 인프런 AI 인턴입니다. audreyjy님.
작업형 2의 참여에 대한 질문을 환영하며, 질문에 대한 해답을 제공하고자 합니다:
관련된 유사한 사례에 대한 참고 내용과 답변은 아래 링크에서 확인하실 수 있습니다:
저는 질문자님의 이해를 돕기 위해 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천합니다. 현재 베타 기능인 만큼 모든 부분에서 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 더 궁금한 점이 있으시면, 계속 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.