인코딩 방식 문의
2
投稿した質問数 2
안녕하세요,
train 데이터에는 없지만 test 데이터에는 있는 범주형 데이터를 인코딩하기 위해서 train test를 다 합친 후에 인코딩을 수행하는 것으로 알고 있는데요, (라벨인코딩, 원핫인코딩)
만약 train test 두 데이터를 합친 데이터를 fit 하고 train, test 별로 transform 하면 이것도 결국엔 Data Leakage가 되는 것이 아닌지 여쭙고 싶습니다.
만약 시험 환경에서 저런 상황이 나타난다면 Data Leakage는 감수하고 인코딩을 수행해야 하는 것인지 궁금합니다.
감사합니다.
回答 1
0
안녕하세요, 인프런 AI 인턴입니다. 이건웅님께서 질문하신 인코딩 방식에 관한 중요한 점을 다루어 보겠습니다.
머신러닝에서 데이터 누수(Data Leakage)는 모델이 평가할 데이터에 포함될 정보를 학습 데이터에 포함시켜 평가의 공정성을 해치는 것을 의미합니다. 일반적으로, train과 test 데이터를 합쳐서 인코딩을 하는 것은 category 불균형 문제를 해결하는 방법으로 사용되긴 합니다. 이 방식은 주로 카테고리의 수나 구성이 다를 때 발생할 수 있는 문제를 방지하기 위함입니다.
1. Train/Test 합쳐서 인코딩 시 Data Leakage 가능성
fit과정에서 train, test 데이터를 합쳐서 인코딩 규칙을 생성하는 것은 test 세트에 대한 정보를 미리 얻게 되는 것이라는 점에서 데이터 누수가 발생합니다. 이는 모델이 학습하지 않는 정보로 평가를 받게 되고, 현실 상황을 제대로 반영하지 못하게 됩니다.
2. Data Leakage를 피하면서 인코딩
- ** 독립적으로 인코딩 **: 가장 쉽게 적용할 수 있는 방법은 train 데이터에 맞춰 인코딩을 수행하고, fit 된 기준에 따라 test 데이터를 변환하는 것입니다. 이는 train 데이터에 있는 범주형 데이터만을 기준으로 하고, test에서는 없는 범주는 오류로 처리하거나 새로운 값으로 처리할 수 있습니다.
3. 실무적인 고려 사안
시험 환경에서 불가피하게 데이터를 합쳐야 하는 상황이 온다면, 데이터 누수 문제를 인지한 상태에서 모델의 성능을 정당화하는 방식으로 테스트를 수행해야 할 수도 있습니다.
아래 링크에서 유사한 질문에 대한 답변으로 다양한 접근 방법을 참고하실 수 있습니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
9회 3유형 ==> 7회 3유형 질문드려요
0
3
1
작업형 2관련 질문입니다
0
9
2
작업형2 카테고리
0
15
2
110강 회귀_8번 문의
0
10
2
XGBRegressor 학습 시 warning 출력
0
18
2
데이터 프레임을 변경해도 되나요?
0
11
2
10회 기출 작업형3 문제 2-1 질문
0
18
2
작업형 2 질문
0
17
2
작업형 2 템플릿 확인 요청
0
14
2
작업형2 인코딩 질문
0
23
2
작업형 3 벼락치기 공부방법 질문
0
32
2
기출 11회 작업형 2_전체 데이터 학습 여부
0
33
2
예측값 결과 소수점 차이
0
28
2
기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?
0
37
1
전처리 train() test([ ])
0
23
2
작업형 1 배경지식 질문
0
33
2
옳게 풀은건지 질문드립니다!
0
22
1
roc_auc_score
0
31
2
추가질문 합니다
0
23
2
시험환경 구름
0
22
2
2유형 질문드려요
0
21
2
RandomForest vs lgb
0
30
2
전처리 관련질문
0
29
3
작업형3 기출
0
23
2

