인프런 커뮤니티 질문&답변

Jin

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형1 모의문제1

작업형1 모의문제1-2 질문

해결된 질문

작성

# your code
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv")

cols1 = df.columns[df.isnull().sum() >= len(df) * 0.3]
df = df.dropna(subset=cols1)

cols2 = df.columns[(df.isnull().sum() < len(df) * 0.3) & (df.isnull().sum() >= len(df) * 0.2)]

for col in cols2:
    df[col] = df[col].fillna(df[col].mode()[0])

print(sum(df['f3'] == 'gold'))

문제에서 결측치가 30% 이상인 컬럼을 찾으라 했는데, 저는 이렇게 조건에 해당하는 컬럼들을 리스트 형태로 구해서 subset에 넘겨주었는데, 선생님 풀이를 보니 subset=['f1'] 이런 식으로 조건에 해당하는 컬럼의 이름을 직접 명시하셨더라구요..!

이런 문제를 풀 때 조건문을 이용해서 조건에 해당하는 컬럼들을 일괄적으로 선택할 필요는 없나요?

제가 아직 이 시험의 문제 유형을 잘 파악하지 못했는데, 이 시험이 혹시 코딩테스트를 예로 들면 "2+3의 값을 출력하시오" 라는 문제의 답을 print(2+3)이 아닌 print(5)로 써도 답은 맞으니 정답 처리가 되는 방식인가요?

감사합니다.

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

네 작업형1과 3은 정답만 찾으면 되고

정답을 직접 입력하는 형태로 변경되었어요!

눈으로 보고 입력만 가능하면 됩니다.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. Jin님께서 질문 주신 문제와 관련하여 답변 드리겠습니다.

pandas를 사용하여 결측치가 일정 비율 이상인 컬럼을 처리하는 방법에 대한 혼란이 있으신 것 같아요. 결측치 비율을 계산하여 조건에 맞는 컬럼을 리스트로 처리하는 방식은 충분히 합리적입니다. 아래에서 각 상황에 대한 설명을 드릴게요.

1. 코드에서 조건에 맞는 컬럼 처리

결측치 30% 이상 컬럼 삭제: subset 파라미터를 사용하여 dropna 함수로 행을 제거할 때, 조건에 맞춰 특정 컬럼을 직접적으로 지정할 수도, 조건문을 이용해 이를 자동화할 수도 있습니다. 두 방법 모두 유효하나, 업무 자동화나 대량 데이터 처리 시에는 조건문을 통한 자동화가 더 효율적일 수 있습니다.
결측치 30% 미만, 20% 이상 컬럼 최빈값 대체: 이는 적절한 방법입니다. mode() 함수를 이용하여 결측치를 최빈값으로 대체하는 과정에서 각 col에 대해 처리하도록 짜여진 코드는 일반적인 데이터 전처리 과정에 많이 사용됩니다.

2. 시험의 정답 기준

시험에서 원하는 것은 문제에 제시된 조건을 판단하여 결과를 도출하는 능력입니다. 만약 문제의 의도가 특정 방법을 고수해야 한다는 것이 아니라면, 다양한 방법으로 조건에 맞는 답을 도출할 수 있습니다. 따라서 코딩 테스트에서의 “2+3의 값을 출력”이란 문제에 대해 print(5)를 사용해도 정답인 것과 유사한 접근입니다. 다만, 일부 시험에서는 명시된 방법을 따르는 것이 요구될 수 있으니 문제의 요구사항을 명확히 이해하고 맞추는 것이 중요합니다.

아래는 관련 게시물의 URL을 참조하실 수 있습니다:

작업형 1 모의문제 1 - 문제 2 질문있습니다.

Jin님께서 의문을 풀 수 있기를 바랍니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

Jin

작성한 질문수

전체 Q&A

질문하기