inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제2

데이터 전처리 중 삭제

해결된 질문

230

이민규

작성한 질문수 10

0

타겟 데이터를 보고

 

타겟 데이터에 영향을 주지 않을 만한

요소들 (이 강의에서는 name, host_name, host_id, last_review )을 직접 EDA 할 때 보고 정해주면 되는 것인가요?

 

만약 필요한 데이터를 삭제한다든가 불 필요한 데이터를 남겨뒀을 때 평가 지표가 낮게 나온다면 다시 불필요한 데이터를 선별하는 전처리 작업을 반복하면서 진행하는 것인가요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

네 정확하게 이해하셨어요!

EDA를 통해 확인하면되고 평가 지표를 보고 추가 전처리 작업을 진행하면 됩니다.

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

이민규님의 문제에 대해 질문지에서 제공된 정보를 토대로 가장 연관성이 높은 해결 방안을 모색해보았습니다. 질문 내용은 데이터 전처리 과정에서 특정 요소들(name, host_name, host_id, last_review)을 언제 삭제해야 하는지, 그리고 이러한 결정이 모델의 평가 지표에 어떻게 영향을 미치는지에 대한 것입니다.

이와 관련하여, 유사한 문제를 다룬 이전 답변들을 살펴보았습니다. 가장 적합한 답변은 다음과 같은 내용을 포함하고 있습니다:

5-2 강의 내용 관련 질문있습니다.

  • 핵심 요약:
    이 질문에 대한 답변에서는 데이터 전처리 과정에서 왜 name, host_name, host_id, last_review 같은 데이터를 삭제하기로 결정했는지에 대해 설명하고 있습니다. 간단히 말해, 이러한 요소들이 모두 다른 값이거나, 특히 id와 같이 모든 데이터 행이 다른 값을 가지고 있을 때, 이는 모델에 있어서 유의미한 피처가 아니라는 판단 하에 삭제했다고 합니다.

  • 결측치 처리: last_review와 같이 결측치가 있는 경우, 어떻게 처리할지에 대한 고민이 필요하며, 특히 테스트 데이터에도 결측치가 있는 경우에는 행(레코드) 삭제가 불가능해 삭제하기로 결정했다는 점이 언급되어 있습니다.

이민규님의 질문에 대한 답변에서 강조되는 것은, 데이터 전처리 과정에서 무엇을 삭제할지 결정하는 것은 데이터의 특징과 목적에 따라 달라진다는 점입니다. EDA(탐색적 데이터 분석)를 진행하면서 데이터를 분석하고, 전처리 과정에서 반복적으로 모델을 평가하여 필요한 데이터를 선별하고 불필요한 데이터를 제거하는 과정을 반복하는 것이 일반적인 접근 방법입니다. 또한, 제거한 데이터가 모델의 성능에 어떤 영향을 미치는지 확인하기 위해 평가 지표를 계속해서 모니터링하는 것이 중요합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

로지스틱회귀, 회귀

0

28

2

회귀 문제를 풀때 질문입니다.

0

32

1

불균형 처리 후 성능이 더 낮아졌다면,

0

44

2

실기 체험 제2유형 에러 문의

0

35

1

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

35

2

3번문제 등분산 가정

0

35

2

작업형3 target 형 변환 질문

0

29

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

23

3

원핫인코딩과 레이블 인코딩에서 concat

0

44

2

제2유형 질문입니다.

0

39

2

C()

0

36

2

작업형 2에서 strafity 적용 유무

0

43

2

수강 기간 연장 가능 여부 문의드립니다.

0

46

1

ols

0

36

2

2유형 작성관련 질문(일반 심화)

0

31

2

2유형 작성관련 질문

0

30

2

2유형 object컬럼 개수 다르면

0

37

2

코딩팡질문이요ㅠㅠ

0

36

2

관찰값과 기대값의 개념이 헷갈립니다.

0

19

2

작업형2 ID 컬럼 삭제 질문

0

39

2

2유형 작성관련 질문

0

27

2

memoryerror 질문

0

21

2

작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?

0

37

1

ID 삭제 필수 인가요?

0

33

3