작성
·
43
·
수정됨
0
작업형 2 문제를 풀때 컬럼을 삭제하는 기준에서
ID와 같은것은 무조건 삭제하는것이 좋을까요?
아래와 같은 예시에서는 비행편 컬럼을 삭제하고 시작하셨는데...
카테고리수가 다르다고 함부로 삭제하는건 또 아닐거같은데
기준을 어떻게 정하면 좋을까요?
저는 비행편 컬럼을 삭제하지 않고 회귀모델을 만들었는데 rmse가 더 적게 나오긴했고요..
=
print("\n ===== 카테고리 비교 =====")
cols = train.select_dtypes(include='object').columns
for col in cols:
set_train = set(train[col])
set_test= set(test[col])
same = (set_train == set_test)
if same:
print(col, "\t카테고리 동일함")
else:
print(col, "\t카테고리 동일하지 않음")
train = train.drop('flight', axis=1)
test = test.drop(
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다. 이선희님.
질문해 주신 작업형 2 문제에서 컬럼 삭제 기준에 대해 답변 드리겠습니다.
ID와 같은 고유 식별 컬럼: 대개 삭제하는 것이 좋습니다. 이러한 컬럼은 각 행을 고유하게 식별하는 용도로 사용되며, 머신러닝 모델에서 예측에 실질적인 정보를 제공하지 않는 경우가 많습니다. 하지만, 최종 결과 제출 시에 필요한 경우에는, 삭제 전에 별도의 변수로 저장해 두어야 합니다.
비행편 같은 특정 컬럼: 분석하는 데이터셋과 문제의 맥락에 따라 다르게 판단될 수 있습니다. ‘flight’와 같은 컬럼이 예측 변수에 중요한 속성을 담고 있다면, 삭제하지 않는 것이 더 나은 결과를 가져올 수 있습니다. 하지만, 예측 목표에 비해 노이즈가 크거나, 데이터의 차원을 줄여야 할 필요가 있을 때는 삭제를 고려할 수 있습니다.
컬럼 삭제의 기준:
비행편과 같은 특정 컬럼을 삭제할지 여부는 모델의 성능 평가 결과에 따라 최종 결정하시는 것이 좋습니다. 여러 모델을 만들어 보고, 그중 가장 성능이 좋은 모델을 선택하세요.
참고하시기 좋은 유사한 질문 링크입니다:
- 작업형2에서 test_ID의 경우
- 작업형 유형 2 전처리할 때 id 삭제하는 이유
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
평가지표를 보고 의사결정은 어떻게 해야할까요 ㅠ예시 하나를 들어주시면 감사하겠습니다~~