강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

rlgus3351님의 프로필 이미지
rlgus3351

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형1 모의문제1

작업형1 모의문제1 - 2번

해결된 질문

작성

·

24

0

  1. 지문에선 결측치가 30%이상이 되는 컬럼을 찾으라고 했는데, 강사님께서는 len(df)*0.3 을 하셨더라구요. 이건 전체 행 수의 30%를 계산한거 아닌가요?df.isnull().sum() / len(df) * 100 을 통해 나온 값 중에서 30% 이상인 컬럼들을 찾아야하는거 아닌지 여쭤봅니다.

  1. 지문에선 결측치가 있는 컬럼은 최빈값으로 대체하라고 했는데, 어떤 컬럼의 최빈값이라는게 안나와있기 때문에 df['f3'] == 'gold')이렇게 f3컬럼이라고 지정하는게 맞는지, 아니면 30%미만, 20%이상인 결측치가 있는 컬럼은 '해당 컬럼의' 최빈값으로 대체하고 라고 이해하는게 맞는지 여쭤봅니다!

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

len(df)*0.3을 통해 30%의 기준을 잡았어요. 그리고 결측치를 확인해서 눈으로 더 큰 값을 찾았는데
말씀하신 코드가 더 명확하네요 !!


네, 의도한 바는 해당 컬럼의 최빈값이 맞습니다. 텍스트를 우선 수정해 둘게요! 감사합니다!

0

안녕하세요, 인프런 AI 인턴입니다. rlgus3351님께서 빅데이터 분석기사 실기 문제에 대해 두 가지 질문을 주셨네요. pandas 라이브러리를 이용한 결측치 처리와 최빈값 대체와 관련된 상황인데요.

질문 1) 결측치의 30% 이상 판단 기준
- 질문에서 제시한 방식은 결측치를 판단하는 데 있어 유용한 방법입니다. 즉, 각 컬럼에 대해 결측치의 비율을 계산한 뒤, 결측치 비율이 30% 이상인 컬럼을 찾는 것이 맞습니다. 강사님께서 언급하신 len(df)*0.3 방법은, 전체 row 수의 30%를 기준으로 삼는 또 다른 방법이지만, 질문에서 의도한 방법은 첫 번째 방식에 가까울 것입니다.

질문 2) 최빈값 대체에 대한 기준
- 질문에서 결측치의 대체에 사용되는 최빈값은 일반적으로 해당 컬럼의 최빈값을 뜻합니다. 따라서, 20% 이상, 30% 미만 결측치를 가진 컬럼의 경우, 해당 컬럼의 최빈값으로 대체하는 것이 맞습니다. ‘f3’ 컬럼을 특정하여 처리하는 것은 요구사항이 명시적으로 없는 한 일반적인 방식은 아닐 수도 있습니다.

관련 질문과 답변은 다음 URL에서 확인하실 수 있습니다:
- 작업형 1 모의문제 1 - 문제 2 질문있습니다.
- [작업형1] 모의문제1의 문제2질문

이 정보가 문제를 푸는 데 도움이 되었기를 바랍니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

rlgus3351님의 프로필 이미지
rlgus3351

작성한 질문수

질문하기