데이터 전처리시 궁금점!
데이터 전처리시
범주형(object)이면 라벨 or 원핫 인코딩
수치형(int or float) 이면 민맥스스켈러 or z스켈러
인데 타겟값이 범주형인가 수치형인가에 따라 전처리 방법을 다르게 하는건가요
아니면
타겟값과 상관 없이 문자형, 수치형 둘다 해보는건지 또는 문자형 or 수치형 중에 아무거나 해도
상관없는건지 궁금합니다! 또 어떠한 경우에 라벨, 원핫, 민맥스스켈러, z스켈러를 사용하는지도 궁금합니다!
ex) 작업형2번 모의문제 1번에서는 타겟 값이 수치형 이지만 전처리시 민맥스스켈러 혹은 z스켈러를
이용하지 않고 문자형컬럼을 제거하거나 라벨, 원한 인코딩을 한 이유가 있을까요?
타겟값이 범주형이기 때문에 그런건가요..ㅠㅠ
파이썬이 처음이라 개념이 잘 안잡혀 있어서 헷갈리네요 ㅜㅜ
답변 1
0
안녕하세요:)
1. 범주형, 수치형에 따라 전처리 방법을 다르게 하는 것 맞습니다.
범주형 -> (원핫/레이블) 인코딩
수치형 -> 스케일링
2. 범주형 데이터를 학습용으로 사용시 인코딩은 필수!! 입니다. 숫자로 반드시 변경을 해줘야 해요!
수치형 데이터는 이미 숫자기 때문에 변환(스케일링)이 필수는 아닙니다.
따라서
a. 극단의 심플한 전처리는 범주형 제거하거 수치형만 남기는 것이고
b. 심플한 전처리는 범주형 데이터를 인코딩 하는 것입니다.
c. 그리고 여유가 있다면 스케일링을 할 수 있어요!
c(스케일링)는 꼭 하지 않아도 됩니다! 따라서 작업형2 풀이에서 적용하지 않고 생략한 부분도 있습니다.
(실제로 랜덤포레스트와 같은 트리모델에는 성능향상이 미미 하기도 해요)
아직 정리가 안되고 궁금증이 생기는 것이 정상입니다 :) 다음 영상을 보면서 따라하다보면 머리속에 구조화가 될거에요~!!
응원하겠습니다.💪💪💪💪💪
수업노트가 어디에 있나요?
0
2
1
실기시험 제출관련
0
134
2
6.20 작업형 2 과적합
0
145
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
46
2
로지스틱회귀, 회귀
0
47
2
회귀 문제를 풀때 질문입니다.
0
53
1
불균형 처리 후 성능이 더 낮아졌다면,
0
61
2
실기 체험 제2유형 에러 문의
0
60
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
47
2
3번문제 등분산 가정
0
46
2
작업형3 target 형 변환 질문
0
34
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
36
3
원핫인코딩과 레이블 인코딩에서 concat
0
56
2
제2유형 질문입니다.
0
46
2
C()
0
44
2
작업형 2에서 strafity 적용 유무
0
50
2
수강 기간 연장 가능 여부 문의드립니다.
0
58
1
ols
0
43
2
2유형 작성관련 질문(일반 심화)
0
39
2
2유형 작성관련 질문
0
39
2
2유형 object컬럼 개수 다르면
0
48
2
코딩팡질문이요ㅠㅠ
0
45
2
관찰값과 기대값의 개념이 헷갈립니다.
0
25
2
작업형2 ID 컬럼 삭제 질문
0
45
2





