4-1 작업형 예시 질문 있습니다
문제2
주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함.
그리고 30% 미만, 20% 이상인 결측치가 있는 컬럼은 최빈값으로 값을 대체하고
'f3'컬럼의 'gold' 값을 가진 데이터 수를 출력하세요!
문제가 지금 이런 형식인데요.
제가 궁금한 것은, 결측치의 크기를 판단하는 판단하는 위치입니다.
'f1' 칼럼을 dropna 하게되면 다른 행들도 영향을 받아서 결측치가 들어있는 행도 같이 날라가게 되는데
각 칼럼별 결측치의 크기를 판단하는 위치는 모든 작업을 수행하기 전에 하는 것이 맞을까요?
<제가 푼 코드>
# your code
import pandas as pd
import numpy as np
pd.set_option('display.max_columns', None)
# file load
file_path = "/content/drive/MyDrive/Colab Notebooks/빅데이터 분석기사/1. 작업형1/"
df = pd.read_csv(file_path+"members.csv")
check = []
# find na over 30%
for col in list(df.columns):
check.append(df[col].isnull().sum()/len(df))
for col, check in zip(list(df.columns), check):
if check >= 0.3:
df = df.dropna(subset=col)
elif check < 0.3 and check >= 0.2:
df[col] = df[col].fillna(df[col].mode()[0])
print(len(df[df['f3'] == 'gold']))
<강의에서 알려준 코드>
# 풀이
import pandas as pd
df = pd.read_csv("members.csv")
# print(df.isnull().sum())
# print(len(df) * 0.3)
# f1 삭제
# f3 최빈값
# print(df.shape)
df = df.dropna(subset=['f1'])
# print(df.shape)
# print(df.head())
df['f3'] = df['f3'].fillna(df['f3'].mode()[0])
# print(df.head())
# df.isnull().sum()
print(sum(df['f3'] == 'gold'))
답변 1
0
문제에서 의도한 바는
결측치가 30%이상 과 30~20%를 구분하고자 했어요!
데이터를 가공하기 전의 결측치 비율이 맞습니다.
여러 작업을 한 문제에 담아서 표현하려다보니 말씀하신대로도 생각할 수 있겠네요!
의견 감사합니다. 문장을 다듬어 보도록 하겠습니다.
출력값 질문
0
11
1
수업노트가 어디에 있나요?
0
21
1
실기시험 제출관련
0
153
2
6.20 작업형 2 과적합
0
158
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
49
2
로지스틱회귀, 회귀
0
48
2
회귀 문제를 풀때 질문입니다.
0
55
1
불균형 처리 후 성능이 더 낮아졌다면,
0
61
2
실기 체험 제2유형 에러 문의
0
61
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
50
2
3번문제 등분산 가정
0
48
2
작업형3 target 형 변환 질문
0
35
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
36
3
원핫인코딩과 레이블 인코딩에서 concat
0
59
2
제2유형 질문입니다.
0
46
2
C()
0
44
2
작업형 2에서 strafity 적용 유무
0
52
2
수강 기간 연장 가능 여부 문의드립니다.
0
61
1
ols
0
43
2
2유형 작성관련 질문(일반 심화)
0
39
2
2유형 작성관련 질문
0
41
2
2유형 object컬럼 개수 다르면
0
48
2
코딩팡질문이요ㅠㅠ
0
45
2
관찰값과 기대값의 개념이 헷갈립니다.
0
25
2





