작성
·
47
·
수정됨
0
문의드립니다.
퇴근후딴짓 빅분기 섹션4 작업형1 강의에서
문제가 명확하게 제시되지 않아 보입니다. 재확인 바랍니다.
"주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고"에서
표현이 모호합니다.
"주어진(?) 데이터에서 결측치가 30% 이상인 컬럼"
주어진데이터(?)를 무엇으로 해석해야 하나요.
무엇에 대한 결측치가 30%인지를 명확하게 제시하지 않았습니다.
(1) 전체 결측치(100%) 중 결측치가 30%이상인 컬럼인지
(2) 전체 데이터(100개, 100%) 중 결측치가 30% 이상이 되는 컬럼인지
f3에서 결측치가 28개가 나왔고 f1에서는 결측치가 31개 나왔으므로 여기에서 알 수 있는 것은 결측값 수는 총 59개란 사실입니다. 그럼 나머지 41개 데이터는 정상 데이터로 볼 수 있습니다.
그런데 f1컬럼에 일반 데이터가 몇 개 들었는지 제시된 단서는 없습니다. 무엇으로 유추했는지 궁금합니다.
가정은 둘 수 있습니다.
F1컬럼(결측값 31개)에 정상 데이터 41개 모두 들어 있어서 총 72개 데이터가 들었을 수도 있다고 가정할 경우 30%이상 되는 결측값 수는 총 31개 결측값 중에서 22.32개가 되는 지점이 30% 지점. (이는 결측값 내에서의 비율)
반대로 결측치(31개)만 들어 있고 정상데이터는 한 개도 없다면 결측치는 100%가 됩니다.
즉, 해당 컬럼에 결측치 숫자 만으로는 해당 컬럼에 정상데이터 수를 예측할 수 없고
정상데이터 수를 예측할 수 없으므로
(1)과 (2) 모두를 예측하기 어렵다는 것입니다.
강의에서는 이 경우 len * 30%, 데이터 수에 비례(?)해서 유추하는 방식으로 접근하신 것 같은데요
이해를 못했습니다.
10개의 컬럼이 있고, 컬럼당 10개의 데이터가 있다고 가정을 해 봅니다.
1컬럼당 10개의 데이터가 있습니다.
f1컬럼의 경우에는 이미 31개 이므로 모든 컬럼에 데이터가 평균적으로 분포했다고 예측할 수도 없습니다.
아울러 강의에서는 f1의 결측치 31개(수량)를 삭제했지만, 문제는 결측치 30%(비율)을 삭제하라고 했습니다.
확인을 요청 드립니다.
또는 이 문제를 건너 뛰어야 하는지도 확인을 바랍니다.
답변