inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제2

데이터 전처리 과정

해결된 질문

80

봉준

작성한 질문수 22

0

강사님 안녕하세요
데이터 전처리 과정에서 어떤 조건?으로 결측치를 제가하나요?

스크린샷 2025-06-15 오후 3.33.43.png

여기서 이름과 host_id를 제거하신거같은데 이유가 있나요??
그리고 모의문제1에서도 어떤 이유 저 컬럼을 없앤건지 궁금합니다

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

컬럼의 수만큼 유니크 수가 있을 때는 제거해도 됩니다.

그렇지만 제거하지 않아도 모델이 중요도를 낮게 생각하기에 제거하지 않아도 무방합니다.

(단, 숫자가 아니라 문자인 경우 인코딩이 필요하니 삭제가 더 편해요)

 

  • 실제 시험에서 제거가 필요한 경우는 없었어요. 집중하진 않으셔도 될 것 같습니다

  • 도메인을 알 수 없기에 제거를 쉽게 설명드리긴 어려운데 평가지표를 기준으로 좋은 방향으로 전처리 선택하시죠

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

봉준님의 질문에 대해 답변드리겠습니다. 데이터 전처리 과정에서 특정 컬럼을 제거하는 이유는 다양합니다. 주로 데이터의 품질 개선과 모델의 성능 최적화를 위해 데이터를 정제하는 과정을 거칩니다. 여기서 언급하신 내용 중 이름(name)과 호스트 아이디(host_id) 컬럼을 제거한 이유에 대해 설명드리겠습니다.

1. 이름(name)과 호스트 아이디(host_id) 제거 이유:

  • 고유값 비중: namehost_id는 각각의 데이터에 대해 고유한 값을 가지고 있습니다. 즉, 해당 컬럼의 유니크 값 수가 데이터 전체 수와 거의 비슷하여, 일반적으로 이러한 컬럼은 예측 모델에 의미 있는 정보를 제공하지 않는다고 판단됩니다.
  • 유의미성 부족: 대부분의 경우, 이름과 ID 같은 고유 식별자는 특정한 패턴을 가지지 않아 분석할 때 중요한 피처로 사용되기 어렵습니다. 즉, 모델 학습에 있어서 구체적인 영향을 주지 않기 때문에 제거합니다.

2. 결측치 처리 및 컬럼 제거 기준:

  • 수치적 값과 결측치 비율: 대규모 결측치를 보유한 컬럼은 제거하거나 결측치를 적절히 처리합니다. last_review와 같은 컬럼은 특정 데이터 분포 및 분석에 크게 기여하지 않는다고 판단되면 제거할 수 있습니다.
  • 모델 성능 고려: 데이터 전처리의 궁극적인 목표는 분석의 정확성을 높이는 것입니다. 쓸모없는 데이터는 모델의 잡음을 만들 수 있어 사전에 제거합니다. 예를 들어, host_name처럼 데이터의 특성과 구체적인 영향 없이 중복된 내용을 포함한 컬럼도 제거 대상이 됩니다.

이와 같은 접근 방식은 빅데이터 분석기사 실기나 데이터 분석 프로젝트에서 자주 사용됩니다. 결론적으로 데이터 전처리 단계에서 각 컬럼의 특성과 분석 목표에 따라 제거 여부를 판단하는 것이 중요합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해 드릴 수 있습니다. 다음 링크들을 참조하세요:
- 결측치 처리 방법에 대한 이해
- 5-2 강의 내용 관련 질문

현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

뒤로가기 버튼 같은 것이 있나요?

0

28

1

강의 연장 문의

0

32

1

출력값 질문

0

31

2

수업노트가 어디에 있나요?

0

29

1

실기시험 제출관련

0

160

2

6.20 작업형 2 과적합

0

169

3

코딩팡 장업형2 베이스 라인 인코딩 종류 질문

0

52

2

로지스틱회귀, 회귀

0

52

2

회귀 문제를 풀때 질문입니다.

0

59

1

불균형 처리 후 성능이 더 낮아졌다면,

0

66

2

실기 체험 제2유형 에러 문의

0

66

1

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

52

2

3번문제 등분산 가정

0

50

2

작업형3 target 형 변환 질문

0

38

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

40

3

원핫인코딩과 레이블 인코딩에서 concat

0

62

2

제2유형 질문입니다.

0

49

2

C()

0

44

2

작업형 2에서 strafity 적용 유무

0

53

2

수강 기간 연장 가능 여부 문의드립니다.

0

63

1

ols

0

44

2

2유형 작성관련 질문(일반 심화)

0

41

2

2유형 작성관련 질문

0

42

2

2유형 object컬럼 개수 다르면

0

49

2