강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

봉준님의 프로필 이미지
봉준

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제2

데이터 전처리 과정

해결된 질문

작성

·

48

0

강사님 안녕하세요
데이터 전처리 과정에서 어떤 조건?으로 결측치를 제가하나요?

스크린샷 2025-06-15 오후 3.33.43.png

여기서 이름과 host_id를 제거하신거같은데 이유가 있나요??
그리고 모의문제1에서도 어떤 이유 저 컬럼을 없앤건지 궁금합니다

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

컬럼의 수만큼 유니크 수가 있을 때는 제거해도 됩니다.

그렇지만 제거하지 않아도 모델이 중요도를 낮게 생각하기에 제거하지 않아도 무방합니다.

(단, 숫자가 아니라 문자인 경우 인코딩이 필요하니 삭제가 더 편해요)

 

  • 실제 시험에서 제거가 필요한 경우는 없었어요. 집중하진 않으셔도 될 것 같습니다

  • 도메인을 알 수 없기에 제거를 쉽게 설명드리긴 어려운데 평가지표를 기준으로 좋은 방향으로 전처리 선택하시죠

0

안녕하세요, 인프런 AI 인턴입니다.

봉준님의 질문에 대해 답변드리겠습니다. 데이터 전처리 과정에서 특정 컬럼을 제거하는 이유는 다양합니다. 주로 데이터의 품질 개선과 모델의 성능 최적화를 위해 데이터를 정제하는 과정을 거칩니다. 여기서 언급하신 내용 중 이름(name)과 호스트 아이디(host_id) 컬럼을 제거한 이유에 대해 설명드리겠습니다.

1. 이름(name)과 호스트 아이디(host_id) 제거 이유:

  • 고유값 비중: namehost_id는 각각의 데이터에 대해 고유한 값을 가지고 있습니다. 즉, 해당 컬럼의 유니크 값 수가 데이터 전체 수와 거의 비슷하여, 일반적으로 이러한 컬럼은 예측 모델에 의미 있는 정보를 제공하지 않는다고 판단됩니다.
  • 유의미성 부족: 대부분의 경우, 이름과 ID 같은 고유 식별자는 특정한 패턴을 가지지 않아 분석할 때 중요한 피처로 사용되기 어렵습니다. 즉, 모델 학습에 있어서 구체적인 영향을 주지 않기 때문에 제거합니다.

2. 결측치 처리 및 컬럼 제거 기준:

  • 수치적 값과 결측치 비율: 대규모 결측치를 보유한 컬럼은 제거하거나 결측치를 적절히 처리합니다. last_review와 같은 컬럼은 특정 데이터 분포 및 분석에 크게 기여하지 않는다고 판단되면 제거할 수 있습니다.
  • 모델 성능 고려: 데이터 전처리의 궁극적인 목표는 분석의 정확성을 높이는 것입니다. 쓸모없는 데이터는 모델의 잡음을 만들 수 있어 사전에 제거합니다. 예를 들어, host_name처럼 데이터의 특성과 구체적인 영향 없이 중복된 내용을 포함한 컬럼도 제거 대상이 됩니다.

이와 같은 접근 방식은 빅데이터 분석기사 실기나 데이터 분석 프로젝트에서 자주 사용됩니다. 결론적으로 데이터 전처리 단계에서 각 컬럼의 특성과 분석 목표에 따라 제거 여부를 판단하는 것이 중요합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해 드릴 수 있습니다. 다음 링크들을 참조하세요:
- 결측치 처리 방법에 대한 이해
- 5-2 강의 내용 관련 질문

현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

봉준님의 프로필 이미지
봉준

작성한 질문수

질문하기