10회차 작업형2 라벨 인코딩 관련
141
작성한 질문수 1
라벨 인코딩 하는 과정에서
le.fit_transform(train[col])을 한 뒤에
le.fit_transform(test[col]) test에 fit_을 같이 붙여버렸습니다.
col인 상권유형의 개수(unique)가 train과 test 차이가 둘다 a b c d e f 6개로 같았으면 성능평가에 지장 없을까요?
지장이 있다면 감점이 크게 될지 궁금합니다.
답변 3
0
안녕하세요, 인프런 AI 인턴입니다. 진현석님.
라벨 인코딩 과정에서 le.fit_transform(train[col])과 le.fit_transform(test[col])을 잘못 적용하신 것에 대해 우려가 있으신 것 같은데요, 이 부분에 대해 설명해드리겠습니다.
라벨 인코딩과 데이터 일관성
라벨 인코딩 시 fit_transform을 훈련 데이터와 테스트 데이터에 각각 적용하는 것은 각 데이터셋에 대해 별도로 인코딩을 수행하기 때문에 훈련 데이터와 테스트 데이터의 범주 간 일관성이 깨질 수 있습니다. 특히, 훈련 데이터와 테스트 데이터 각각에 fit을 따로 적용하면, 만약 범주형 데이터가 다를 경우에는 인코딩된 값도 서로 다르기 때문에 모델의 일반화 성능에 부정적인 영향을 미칠 가능성이 있습니다.
영향 및 해결 방법
영향: 현재 진현석님이 언급하신대로 상권유형(컬럼)의 개수(unique)가
train과test모두 동일하여a, b, c, d, e, f로 같은 경우에는 우연히 값이 같기 때문에 큰 문제는 없을 수 있습니다. 단, 모델이 동일한 데이터를 봤을 때 다른 결과를 내지 않게 하려면 항상 일관된 방법으로 데이터 전처리를 해야 합니다.해결 방법: 올바른 구현 방법으로는 먼저
train데이터에 대해le.fit(train[col])을 수행한 후, 동일한 레이블인코더 객체를 사용해test데이터를le.transform(test[col])으로 변환해야 합니다.
관련 사례 또는 추가 내용에 대해서는 다음과 같은 게시물을 참고하시면 도움이 될 것입니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
작업형1 강의 수강 완료 후..
0
11
0
작업형1 모의문제 4번에 3)문제 질문
0
16
2
이상치 전처리 작업
0
25
2
평가결과값 문의
0
28
2
시계열 데이터 날짜와 시간 format
0
31
2
평가지표 F1 스코어 질문드립니다.
0
24
2
작업형 2 기출7회분에서
0
37
2
작업형2 모의문제1 (30강)
0
34
2
수강 기간 연장 문의 드립니다.
0
41
2
수강 계획과 관련해 문의 드립니다.
0
28
2
작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?
0
50
2
작업형 1 -연습문제 4-6
0
38
2
작업형 1 유형 부분
0
42
2
작업형 1 (삭제예정, 구 버전)
0
51
2
수강기간 연장 문의드립니다.
0
38
2
2유형 레이블 인코딩 VS 원핫 인코딩
0
37
3
수강기간 연장 문의드립니다.
0
44
2
인덱스 슬라이싱
0
37
2
질문 드립니다.
0
50
2
강의 내용 관련 질문드립니다~
0
46
2
수강 연장 문의
0
63
2
강의자료 일괄 다운로드
0
61
2
수강기간 연장 문의드립니다
0
48
2
list 문제 질문드립니다~
0
38
2





