강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

강민균님의 프로필 이미지
강민균

작성한 질문수

퇴근후딴짓 빅분기 섹션4 작업형1 강의에서 결측치가 30% 이상되는 컬럼?

작성

·

47

·

수정됨

0

문의드립니다.

 

퇴근후딴짓 빅분기 섹션4 작업형1 강의에서

문제가 명확하게 제시되지 않아 보입니다. 재확인 바랍니다.


"주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고"에서

표현이 모호합니다.

 

 "주어진(?) 데이터에서 결측치가 30% 이상인 컬럼"

 

주어진데이터(?)를 무엇으로 해석해야 하나요.

무엇에 대한 결측치가 30%인지를 명확하게 제시하지 않았습니다.

 

(1) 전체 결측치(100%) 중 결측치가 30%이상인 컬럼인지

(2) 전체 데이터(100개, 100%) 중 결측치가 30% 이상이 되는 컬럼인지

 

f3에서 결측치가 28개가 나왔고 f1에서는 결측치가 31개 나왔으므로 여기에서 알 수 있는 것은 결측값 수는 총 59개란 사실입니다. 그럼 나머지 41개 데이터는 정상 데이터로 볼 수 있습니다.

그런데 f1컬럼에 일반 데이터가 몇 개 들었는지 제시된 단서는 없습니다. 무엇으로 유추했는지 궁금합니다.

 

가정은 둘 수 있습니다.
F1컬럼(결측값 31개)에 정상 데이터 41개 모두 들어 있어서 총 72개 데이터가 들었을 수도 있다고 가정할 경우 30%이상 되는 결측값 수는 총 31개 결측값 중에서 22.32개가 되는 지점이 30% 지점. (이는 결측값 내에서의 비율)
반대로 결측치(31개)만 들어 있고 정상데이터는 한 개도 없다면 결측치는 100%가 됩니다.

 

즉, 해당 컬럼에 결측치 숫자 만으로는 해당 컬럼에 정상데이터 수를 예측할 수 없고

정상데이터 수를 예측할 수 없으므로
(1)과 (2) 모두를 예측하기 어렵다는 것입니다.

강의에서는 이 경우 len * 30%, 데이터 수에 비례(?)해서 유추하는 방식으로 접근하신 것 같은데요
이해를 못했습니다.

10개의 컬럼이 있고, 컬럼당 10개의 데이터가 있다고 가정을 해 봅니다.

1컬럼당 10개의 데이터가 있습니다.

f1컬럼의 경우에는 이미 31개 이므로 모든 컬럼에 데이터가 평균적으로 분포했다고 예측할 수도 없습니다.

 

아울러 강의에서는 f1의 결측치 31개(수량)를 삭제했지만, 문제는 결측치 30%(비율)을 삭제하라고 했습니다.

확인을 요청 드립니다.

또는 이 문제를 건너 뛰어야 하는지도 확인을 바랍니다.

답변

답변을 기다리고 있는 질문이에요
첫번째 답변을 남겨보세요!
강민균님의 프로필 이미지
강민균

작성한 질문수

질문하기