인프런 커뮤니티 질문&답변
작업형1 모의문제1-2 질문
해결된 질문
작성
·
23
0
# your code
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv")
cols1 = df.columns[df.isnull().sum() >= len(df) * 0.3]
df = df.dropna(subset=cols1)
cols2 = df.columns[(df.isnull().sum() < len(df) * 0.3) & (df.isnull().sum() >= len(df) * 0.2)]
for col in cols2:
df[col] = df[col].fillna(df[col].mode()[0])
print(sum(df['f3'] == 'gold'))문제에서 결측치가 30% 이상인 컬럼을 찾으라 했는데, 저는 이렇게 조건에 해당하는 컬럼들을 리스트 형태로 구해서 subset에 넘겨주었는데, 선생님 풀이를 보니 subset=['f1'] 이런 식으로 조건에 해당하는 컬럼의 이름을 직접 명시하셨더라구요..!
이런 문제를 풀 때 조건문을 이용해서 조건에 해당하는 컬럼들을 일괄적으로 선택할 필요는 없나요?
제가 아직 이 시험의 문제 유형을 잘 파악하지 못했는데, 이 시험이 혹시 코딩테스트를 예로 들면 "2+3의 값을 출력하시오" 라는 문제의 답을 print(2+3)이 아닌 print(5)로 써도 답은 맞으니 정답 처리가 되는 방식인가요?
감사합니다.
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다. Jin님께서 질문 주신 문제와 관련하여 답변 드리겠습니다.
pandas를 사용하여 결측치가 일정 비율 이상인 컬럼을 처리하는 방법에 대한 혼란이 있으신 것 같아요. 결측치 비율을 계산하여 조건에 맞는 컬럼을 리스트로 처리하는 방식은 충분히 합리적입니다. 아래에서 각 상황에 대한 설명을 드릴게요.
1. 코드에서 조건에 맞는 컬럼 처리
결측치 30% 이상 컬럼 삭제:
subset파라미터를 사용하여dropna함수로 행을 제거할 때, 조건에 맞춰 특정 컬럼을 직접적으로 지정할 수도, 조건문을 이용해 이를 자동화할 수도 있습니다. 두 방법 모두 유효하나, 업무 자동화나 대량 데이터 처리 시에는 조건문을 통한 자동화가 더 효율적일 수 있습니다.결측치 30% 미만, 20% 이상 컬럼 최빈값 대체: 이는 적절한 방법입니다.
mode()함수를 이용하여 결측치를 최빈값으로 대체하는 과정에서 각col에 대해 처리하도록 짜여진 코드는 일반적인 데이터 전처리 과정에 많이 사용됩니다.
2. 시험의 정답 기준
시험에서 원하는 것은 문제에 제시된 조건을 판단하여 결과를 도출하는 능력입니다. 만약 문제의 의도가 특정 방법을 고수해야 한다는 것이 아니라면, 다양한 방법으로 조건에 맞는 답을 도출할 수 있습니다. 따라서 코딩 테스트에서의 “2+3의 값을 출력”이란 문제에 대해 print(5)를 사용해도 정답인 것과 유사한 접근입니다. 다만, 일부 시험에서는 명시된 방법을 따르는 것이 요구될 수 있으니 문제의 요구사항을 명확히 이해하고 맞추는 것이 중요합니다.
아래는 관련 게시물의 URL을 참조하실 수 있습니다:
Jin님께서 의문을 풀 수 있기를 바랍니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





