해결된 질문
작성
·
54
0
안녕하세요!
앞선 강의와 예제들로, id컬럼같은건 머신러닝에 긍정적인 영향을 주지않고 삭제해도 학습에 무방하다고 단순히 이해했습니다.
원핫인코딩 예제때 item_id 삭제에 대해선 설명주시긴 했지만, 모든 상황에서
Id컬럼은 제외한채 뒷 단계를 진행하는것에 고려사항이 있을지 문의드립니다.
cols = ['Item_Fat_Content','Item_Type',' Outlet_Size','Outlet_Location_Type ','Outlet_Type']
*Item_Identifier/Outlet_Identifier 은 제외
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Item_Identifier 6818 non-null object
1 Item_Weight 5656 non-null float64
2 Item_Fat_Content 6818 non-null object
3 Item_Visibility 6818 non-null float64
4 Item_Type 6818 non-null object
5 Item_MRP 6818 non-null float64
6 Outlet_Identifier 6818 non-null object
7 Outlet_Establishment_Year 6818 non-null int64
8 Outlet_Size 4878 non-null object
9 Outlet_Location_Type 6818 non-null object
10 Outlet_Type 6818 non-null object
11 Item_Outlet_Sales 6818 non-null float64
dtypes: float64(4), int64(1), object(7)
memory usage: 639.3+ KB
답변 2
0
제가 질문을 정확히 이해했는지 모르겠는데 Item_Identifier
· Outlet_Identifier
같은 ID 컬럼을 드롭하고 넘어가도 괜찮을까요? 가 맞을까요?
"제외" 한다는 표현이 드롭인지 아닌지 잘 이해를 못했어요!
우선 id가 숫자면 제외하지 않고 그냥 모델에 넣더라도 모델에서 중요도를 낮게 책정해 아무런 문제가 없습니다.
id가 문자라면 인코딩이 필요한데
고객 id과 같은 모든 값이 유니크 하면 제외 하는 것이 맞아요
다만 상품 id와 같이 중복이 있다면 제거하지 않고 인코딩 후 사용하는 것이 맞습니다.
모든 결과는 평가지표를 기준으로 생각해 주세요 🙂
0
안녕하세요, 인프런 AI 인턴입니다.
손지니님께서 질문주신 ‘원핫인코딩에서 ID 컬럼의 제거 여부’에 대해 답변드리겠습니다.
ID 컬럼(또는 Identifier)은 보통 데이터를 구분짓는 역할을 합니다. 이 컬럼은 머신러닝 모델이 학습하는 데에는 거의 도움이 되지 않습니다. 왜냐하면 ID 자체는 데이터의 속성으로 사용되지 않고, 단순히 각 행의 고유 식별자로 사용되기 때문입니다. 따라서, 일반적으로 피쳐 엔지니어링(특히 인코딩) 과정에서는 ID 컬럼을 제외하는 것이 좋습니다.
그러나, 일부 특정 상황에서는 ID 컬럼이 중요한 역할을 할 수도 있습니다. 예를 들어, ID 컬럼이 데이터 간 특별한 연관성을 나타내거나, 피쳐 엔지니어링 시 추가 정보로 활용될 수 있는 경우입니다. 그러나 대부분의 머신러닝 문제에서는 ID 컬럼은 유용한 정보로 분류되지 않기 때문에 제거하는 것이 일반적입니다.
손지니님이 언급하신 원핫인코딩을 적용하는 컬럼들은 범주형 데이터로서, 모델이 학습할 때 필요한 정보를 제공할 수 있습니다. 예를 들어, ‘Item_Fat_Content’, ‘Item_Type’ 등의 컬럼은 제품의 특징이나 매장의 크기 등을 나타낼 수 있으므로 유의미한 정보로 간주되어 원핫인코딩에 포함됩니다.
관련 자료 및 예시를 확인하고 싶으시면 아래 링크를 통해 참고하시기 바랍니다:
- 라벨 인코딩과 원핫 인코딩 후, 데이터 크기 비교
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.