데이터 전처리 기준 질문드립니다!
선생님 안녕하세요!
현재 작업형2 연습을 하고 있는데 데이터 전처리 과정에서
어떤 문제는 object형 모두를 삭제하고,
어떤 문제에서는 int, float, object형 각각 일부 선택해서 삭제 또는 결측치 입력 후 검증 하던데
선생님은 어떤 기준으로 나누는지 아니면 어떤 기준을 가지고 나누면 도움이 되는지 궁금합니다!
답변 2
0
object형 모두를 삭제 -> 최소한의 작업으로 베이스라인을 만들기 위함임(베이스라인 : 제출가능한 최소한의 형태이며 이렇게라도 제출할 수 있다 정도 코드)
하지만 최근에는 인코딩까진 해야 40점이 나오고 있어요
int, float -> 그대로 사용
object형 -> 인코딩(원핫 또는 라벨)
결측치는 아직 출제된 적은 없습니다.
숫자는 평균 또는 중앙
문자는 최빈
정도면 충분하지 싶어요!
그리고 모든 전처리 기준은 검증데이터 성능을 기준으로 하고 있어요!
0
안녕하세요, 인프런 AI 인턴입니다. ssy02029님.
데이터 전처리 과정에서 ‘어떤 컬럼을 삭제할지, 결측치를 어떻게 처리할지’는 데이터의 특성과 목적에 따라 달라질 수 있습니다. 일반적으로는 다음과 같은 기준을 고려할 수 있습니다:
도메인 지식 활용: 각 컬럼의 의미를 이해하고, 예측에 중요한지 여부를 판단합니다. 의미가 없거나 잘못된 값을 가진 컬럼은 삭제할 후보가 될 수 있습니다.
결측치 비율: 결측치가 많은 컬럼은 분석에 불리할 수 있으며, 결측치 비율이 높은 경우 삭제를 고려할 수 있습니다. 하지만 데이터의 중요성에 따라 결측치를 평균, 중앙값, 또는 모델 기반으로 대체할 수도 있습니다.
기준 미달: 특정 기준에 미달하는 데이터 유형은 삭제가 필요할 수 있습니다. 예를 들어, object 타입 컬럼에서 카테고리가 너무 많은 경우라면 이를 숫자로 인코딩하기 전에 정리할 필요가 있습니다.
데이터 유형: int, float, object형 데이터는 각각 다른 전처리가 필요할 수 있습니다. 예를 들어, object형 데이터는 범주형으로 인식해 인코딩을 할 수 있으며, 수치형 데이터는 정규화나 표준화를 통해 조정할 수 있습니다.
모델 요구사항: 사용하려는 모델이나 접근법에 따라 전처리 방식이 달라질 수 있습니다. 예를 들어, 회귀 분석에는 숫자형 데이터만 사용될 수 있지만, 분류 모델에는 범주형 데이터도 사용할 수 있습니다.
이와 관련해 기존 질문에서 설명된 과정을 참고하면, 전처리의 유연성을 유지하면서도 데이터 특징에 맞는 적절한 방법을 선택할 수 있습니다.
관련 정보를 확인하고 싶으시다면 아래의 질문 답변을 참조하세요:
- 데이터 전처리시 궁금점!: 이 질문에서는 데이터 전처리 시 유형별 처리 방법에 대한 논의가 이루어집니다.
- 작업형2 풀이 시에 데이터 전처리: 작업형2에서의 데이터 전처리와 관련된 조언을 제공하며, 전처리 기준에 대해 더 깊이 있게 참고할 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
작업형 1 유형 부분
0
11
1
작업형 1 (삭제예정, 구 버전)
0
31
2
수강기간 연장 문의드립니다.
0
21
1
2유형 레이블 인코딩 VS 원핫 인코딩
0
24
3
수강기간 연장 문의드립니다.
0
26
1
인덱스 슬라이싱
0
27
2
질문 드립니다.
0
45
2
강의 내용 관련 질문드립니다~
0
43
2
수강 연장 문의
0
55
2
강의자료 일괄 다운로드
0
50
2
수강기간 연장 문의드립니다
0
40
2
list 문제 질문드립니다~
0
35
2
빅분기 실기 12회 재도전
0
53
2
강의 기간 연장 가능여부 검토 요청건
0
39
2
수강기간 연장 문의 드립니다
0
43
2
수강기간 연장 문의드립니다
0
50
2
질문이요
0
56
2
수강기간 연장 문의드립니다.
0
58
2
문제 3-2 질문드립니다
0
47
2
수강기간 연장 문의 드립니다.
0
61
2
변수, 칼럼 , df 구분
0
51
2
수강기간 연장 문의드립니다.
0
50
2
수강기간 연장 문의
0
49
2
수강기간 연장 문의드립니다.
0
42
2





