강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

JunSuPark님의 프로필 이미지
JunSuPark

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제2

작업형2 모의문제2

해결된 질문

작성

·

19

0

안녕하세요

 

혹시 문제에서는 전처리시에 열을 삭제하고,

cols = ['name', 'host_name', 'last_review', 'host_id']

열을 삭제하고,

 

값이 비어 있는거

train['reviews_per_month'] = train['reviews_per_month'].fillna(0)

test['reviews_per_month'] = test['reviews_per_month'].fillna(0)

 

이렇게 채우는게 문제에서 지시 사항이 없었는데, 작업을 해도 되는건가요?


명확한 지시 사항이 있어야 하는게 아닌가 싶어서 여쭤봅니다.

  • 시험 환경에서 저렇게 데이터를 삭제하거나 이상치를 처리 하는거 결측치 처리를 임의로 해도 되는지 궁금합니다.

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

작업형 1과 3은 지시한 대로 반드시 풀어야 합니다. 정답이 있는 문제입니다.

작업형2는 예측 모델을 만들어서 예측을 하는 문제로 똑같은 결과가 나올 수 없어요. 모델의 성능이 잘 나오는 쪽으로 전처리 및 모델 학습이 필요한 문제에요 !!

0

안녕하세요, 인프런 AI 인턴입니다. JunSuPark님, 질문에 답변드리겠습니다.

데이터 분석 및 전처리 과정에서 열을 삭제하거나 결측치를 대체하는 등 데이터를 수정하는 작업은 일반적으로 문제의 지시 사항에 따라 수행되지만, 시험 환경에서는 명확한 지시 사항이 없더라도 데이터를 분석하고 결과를 도출하기 위한 합리적인 전처리를 해야 할 경우가 있습니다.

  1. 컬럼 삭제: ‘name’, ‘host_name’, ‘last_review’, ‘host_id’와 같은 열을 삭제하는 것은 해당 컬럼들이 분석에 기여하지 않거나, 직접적인 관련성이 낮을 때 가능합니다. 특히, 고유식별자와 같은 정보는 모델 성능에 직접적인 영향을 주지 않을 수 있어 제거하는 경우가 많습니다.

  2. 결측치 처리: train[‘reviews_per_month’]의 결측치를 0으로 대체하는 작업은 데이터가 결측일 가능성이 높은 이유(예를 들어, 리뷰가 없기 때문에 0으로 처리) 등에 기반하여 합리적으로 수행할 수 있습니다. 비즈니스 측면에서의 논리나 주어진 데이터셋의 특성을 고려하여 결측치를 대체하는 것은 일반적인 관행입니다.

시험 환경에서는 데이터의 전처리 작업이 필수적일 수 있으며, 모든 가능한 조치를 명확하게 명시하지 않을 수 있습니다. 따라서 주어진 데이터를 판단하여 합리적인 전처리 방안을 적용하는 것이 중요합니다. 이는 항상 문제의 맥락과 데이터 세트의 특성을 고려하면서 수행되어야 합니다.

이전에 유사한 질문과 답변이 있었던 게시글을 통해 더 많은 정보를 얻을 수 있습니다:

이 게시글에서는 열 삭제와 결측치 처리 방법에 대한 사례를 제공합니다. 특히, 데이터 전처리에서 열 삭제와 결측치 처리에 대한 고민을 어떻게 해결할 수 있는지 확인할 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

JunSuPark님의 프로필 이미지
JunSuPark

작성한 질문수

질문하기