작성한 질문수
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
해결된 질문
작성
·
316
0
캐글 T1-12 문제에서 100%가 넘는 접종률은 제거 한다고 되어 있는데 위에 df2 = df[1:] 이게 이상치를 제거 하는게 맞는건가요?
처음 실행 했을 때 100이 넘는 값이 나왔고, 실행 할 수록 프린트 되어 나오는 값이 달라집니다.
그리고 저게 이상치를 제거한다는게 맞다면 저 코드(?)의 의미는 무엇인지 궁금합니다 [1:] 이부분이...
답변 1
해당 문제는 출제 당시 코로나 데이터를 기준으로 했어요!코로나 데이터가 계속 업데이트 되면서 100% 넘는 기준이 1개에서 3개로 늘었네요! 첫 줄뿐아니라 상위 3개가 제거 되어야 겠네요. 바로 수정할게요!! 감사합니다.
import pandas as pd df = pd.read_csv("../input/covid-vaccination-vs-death/covid-vaccination-vs-death_ratio.csv") # print(df.head()) df2 = df.groupby('country').max() #시간에 따라 접종률이 점점 올라감 df2 = df2.sort_values(by='ratio', ascending = False) #100%가 넘는 접종률 제거 cond = df2['ratio'] <= 100 df2 = df2[cond] top = df2['ratio'].head(10).mean() bottom = df2['ratio'].tail(10).mean() print(round(top - bottom,1)) # 결과값은 데이터 업데이트에 따라 달라질 수 있음