인프런 커뮤니티 질문&답변

92200607님의 프로필 이미지
92200607

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

모의문제 작업형 1 데이터 수 출력

해결된 질문

작성

·

134

·

수정됨

1

정말 기초적인 것일거 같은데 데이터 수 출력할때 len과 sum을 활용하는데 어떨때는 sum으로 해야 답이 나오고 어떨때는 len으로 해야 답이 나오는데 언제 써야 하는지 정확히 이해가 안되요.

 

문제2) 주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함.

  • 그리고 30% 미만, 20% 이상인 결측치가 있는 컬럼은 최빈값으로 값을 대체하고

  • 'f3'컬럼의 'gold' 값을 가진 데이터 수를 출력하세요!

     

import pandas as pd df = pd.read_csv('members.csv')

# print(len(df)*0.3)

df.isnull().sum()

# f1 삭제, f3 최빈값 대체

df = df.dropna(subset=['f1'])

df['f3'] = df['f3'].fillna(df['f3'].mode()[0])

df.isnull().sum()

print(len(df['f3'] == 'gold'))

print(sum(df['f3'] == 'gold'))


이때 len으로 하면 답이 69개가 나오고, sum으로 하면 56개가 나오는데 답은 sum으로 할때 맞더라구요.

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

sum()

데이터 프레임에서 조건에 따른 수를 알고 싶다 -> sum()을 사용하는 것이 좋습니다.

cond = df['a'] > 10

sum(df[cond]) 의 결과는 True(1)의 총합을 계산합니다.

전체 데이터 10개 중 10보다 큰 값이 5개라면 5가 출력됩니다.

 

len()

데이터프레임의 행의 수를 알고 싶다면 len()을 사용합니다.

cond = df['a'] > 10

len(df[cond]) 을 사용하면 False도 한 행이므로 모두 계산되어 나옵니다.

전체 데이터 10개가 출력됩니다.

 

count() <- 몰라도 됨. 혹시나 궁금할까봐 추가하였습니다.

count()는 결측치를 제외하고 카운트합니다.

따라서 결측치 제거 후 len() 적용한 것과 동일합니다.

혹시 count() 사용하는 풀이를 혹시 제가 한 적 있을까요??
자칫 잘못 카운트할 가능성이 있어 입문자에게는 결측치 제거 후 len()을 사용하는 것을 추천합니다.


수치형 데이터: sum(), len(), count() 모두 사용 가능

범주형 데이터: len(), count()는 사용 가능하지만 sum()은 의미 없음


이해가 되었을까요?

0

안녕하세요, 인프런 AI 인턴입니다.

질문자님께서 질문하신 내용과 관련하여, lensum을 활용하여 데이터의 개수를 측정할 때 어떠한 상황에서 어떤 함수를 사용해야 하는지에 대한 혼란이 있는 것 같습니다.

  • len() 함수는 주어진 컬렉션(리스트, 튜플 등)이나 시퀀스의 길이, 즉 항목의 수를 반환합니다.
  • sum() 함수는 주어진 시퀀스의 모든 항목의 합을 계산합니다. 이는 불리언 배열에서 True는 1로, False는 0으로 계산되기 때문에, 조건에 맞는 항목의 수를 계산할 때 유용합니다.

질문자님이 예로 든 "f3" 컬럼의 'gold' 값을 가진 데이터 수를 출력하는 경우에 대해 설명하겠습니다.

df['f3'] == 'gold'는 ‘f3’ 컬럼의 각 값이 ‘gold’인지 여부에 대한 불리언 시리즈를 반환합니다. 여기서 len(df['f3'] == 'gold')를 사용하면, 단순히 시리즈의 전체 길이(즉, 전체 행의 수)를 반환하기 때문에 ‘gold’ 항목에만 관심이 있다면 올바르지 않은 접근입니다. 반면, sum(df['f3'] == 'gold')를 사용하면, ‘gold’에 해당하는 True 값을 숫자 1로 계산하여, 실제 ‘gold’ 항목의 개수를 정확히 계산할 수 있습니다.

이와 관련하여 기존 답변에서 비슷한 혼란을 겪은 다른 학습자의 질문에 대한 답변이 유용할 것입니다. 다음 링크를 참조해 주시기 바랍니다:

  • 4-1, 문제 3번, 2번 풀이 sum(),len() 관련 질문에서는 'f3' 컬럼이 'gold'인 항목의 수를 어떻게 계산하는지와 관련해 sum 함수와 len 함수의 사용법과 차이점에 대해 설명하고 있습니다. 특히 sum 함수를 사용하여 True 값을 합산하는 방법과 len 함수를 사용하기 전에 조건에 해당하는 데이터프레임을 필터링하는 과정을 설명하고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

92200607님의 프로필 이미지
92200607

작성한 질문수

질문하기