id는 굳이 학습 안해도 된다는 내용

Question

5-3 수업 자료에서 train = train.drop('id, axis = 1) test_id = test.pop('id) 를 썻는데 여기 3-5 문제2 에서도 검증데이터 분리 전에 X_train = X_train.drop('id, axis = 1) X_test_id =X_ test.pop('id) 을 쓰고 그대로 진행해도 될런지요?? 진행해보았는데 22222.csv 파일 내용을 보면 강의와는 수치가 조금 다릅니다 id income 11574 0.03 15847 0.01 17655 0.1 19790 0.47 31812 0.05 이런식으로 나오는데 저의 풀이도 맞는지요!

퇴근후딴짓 · Answer

모두 다른 id라면 사용해도 되고 안 해도 됩니다. 사용하더라도 모델이 중요도를 낮게 책정합니다.

2. drop 은 일반적으로는 검증데이터 분리 전에 제거해요~
id가 범주형일 때는 인코딩 하기 전에
id가 수치형일 때는 스케일링 하기 전에
drop하거나 인코딩이나 스케일링에서 제외해야 합니다.

3. 작업형 예측 결과 값은 다를 수 있어요!! 정답이 있는 문제가 아니랍니다~ 다만 검증 데이터 평가 결과가 강의와 비슷한(유사한) 수치로 나오는지 확인하면 됩니다 (똑같지 않아도 문제 없습니다 )