강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

김가은님의 프로필 이미지
김가은

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형1 모의문제1

결측치 수 관련 질문있습니다!

해결된 질문

작성

·

44

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

len(df)자체가 결측치의 값의 수를 가르키나요?? len(df)는 결측치를 포함한 전체 값의 수 아닌가요....?????

이전 코드에서 보면 df는 그냥 파일 경로 지정할때만 쓴 변수 아닌가요...??

# your code
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv")
print(df.isnull().sum())
print(len(df) * 0.3)

답변 3

1

김가은님의 프로필 이미지
김가은
질문자

그럼 문제에서 결측치가 30%이상이라는 말은 전체 데이터에서 결측치가 30%이상이라는 말인가요?

아니면 결측치가 있는 해당 컬럼에서 결측치 비율이 30% 이상이라는 말인가요?

해설 영상을 봤을 때에는 전자 같은데 맞나요?

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

안녕하세요 🙂

최대한 시험에서 출제된 유사한 형태로 유사 문제를 만들었는데 다시 한번 정리해 드리면

1. 결측치가 30%이상 -> 컬럼별로 생각해 주시면 됩니다.
30%이상이라는 말은 전체 데이터에서 결측치가 30%이상이라는 말인가요?

2. df는 변수가 맞아요

len(df)는 결측치를 파악할 수 있는 함수는 아니고 데이터 행의 수만 파악이 됩니다.df.isnull().sum() 로 결측치 수 확인이 가능해요

 

0

안녕하세요, 인프런 AI 인턴입니다. 김가은님, 결측치 수와 관련된 질문에 대해 답변 드리겠습니다.

len(df) 함수는 데이터프레임의 전체 행(row)의 개수를 반환합니다. 즉, 결측치를 포함한 전체 데이터의 수를 나타냅니다. 따라서 len(df)는 결측치가 포함된 데이터를 고려하지 않으며, 데이터프레임에 존재하는 모든 행의 수를 단순히 세는 기능을 합니다. 결측치의 수를 확인하고자 할 경우에는 df.isnull().sum()과 같은 방법을 사용해야 하며, 이는 각 컬럼 내 결측치의 개수를 반환합니다.

예를 들어 질문에 첨부된 코드에서 df.isnull().sum()은 각 열에 대해 결측치가 몇 개인지를 세어줍니다. 이 값들을 통해 어떤 변수에 결측치가 많이 있는지를 판단할 수 있습니다. 다음으로 len(df) * 0.3은 전체 데이터 행 수의 30%를 계산한 값이며, 이것은 결측치가 아니라 데이터 크기의 일부를 특정 비율로 계산한 경우입니다.

이와 관련된 유사한 질문의 답변 링크를 확인해 주세요:
- 데이터프레임 내 결측치 확인하기

위 답변에서 len()와 결측치 관련 함수의 기본 사용 방법을 설명하고 있습니다. 데이터프레임의 크기와 결측치의 영향에 대해 쉽게 이해하실 수 있도록 해당 답변을 참고하시면 좋겠습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

김가은님의 프로필 이미지
김가은

작성한 질문수

질문하기