[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
비전공자, 입문자가 빅데이터 분석기사 실기를 빠르게 취득할 수 있도록 안내해드려요! 이론은 가볍게, 실전은 확실하게 복잡한 배경지식 없이도, 기출문제를 중심으로 시험에 꼭 나오는 포인트만 집중 학습합니다.
수강생 4,975명
난이도 입문
수강기한 12개월

11회 빅데이터 분석기사 실기 결과가 최종 발표되었습니다!
합격하신 분들 진심으로 축하드립니다. 혹시 아쉬운 결과를 받으신 분들은 이번 경험을 발판 삼아 내년에 더 성장하겠다는 마음으로 한번 더 함께 하시죠!!
저도 이번 시험 내용과 여러분께서 남겨주신 피드백을 반영해서, 내년에는 더욱 업데이트된 강의로 찾아뵙겠습니다. 💪💪💪
그리고
쑥스럽지만, 여러분 덕분에 어제 인프런 어워드에서 상을 받았습니다! 정말 감사드립니다 :)
연말 마무리 잘하시고 행복한 크리스마스와 새해 보내세요! 🙇🏼♂️🙇🏼♂️🙇🏼♂️
결과가 나와봐야 알겠지만 11회 시험 영상으로 정리해 봤습니다.
빅데이터분석기사 시험 보신 분들 고생 많으셨습니다!
ttest와 민감도를 제외하면
지난 기출과 유사해 무난하다는 의견인데 여러분들은 어떠셨나요? (궁금)
등분산이라는 내용이 문제에 없는데 왜
equal_var=True인가요?
질문 주신 송**님께 감사드립니다.체험 문제의 작업형 3 – 소문제 3번에서
문제 텍스트에는 “등분산”이라는 표현이 직접 등장하지 않습니다.그런데 풀이에서는 아래와 같이
#3 from scipy import stats result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True) print(round(result.pvalue,3))등분산 가정(Student t-test)을 사용했습니다.
그 이유는 다음과 같습니다.문제는 다음 흐름으로 구성된 전형적인 3단계 검정 문제였습니다.
F-검정으로 두 집단의 분산 차이를 확인
합동 분산 추정량 계산
그 합동 분산을 이용해 독립표본 t-검정 수행
합동 분산을 구한다는 말 자체가 이미 두 집단의 분산이 동일하다는 가정을 전제로 합니다.
따라서
equal_var=True를 사용한 풀이로 접근했습니다.
추가로단일표본 t검정: 등분산 검정 불필요 (비교할 두 그룹이 없음)
대응표본 t검정: 등분산 검정 불필요 (차이값만 사용)
독립표본 t검정: 등분산 검정 고려
내일 빅분기 시험이네요
시험 잘 보고 오시길 기원하며 작업형3 문제표현 예시 정리했습니다.
시험 잘 보고 오세요 👏👏

+예시문제 유형 학습
-비모수는 우선순위가 낮아 제외
기출 vs 연습문제의 차이점
기출문제나 예시문제에서는 컬럼을 삭제하는 경우가 없었습니다.
하지만 연습/모의 문제에서 더 복잡한 데이터를 다루다 보면 컬럼 삭제가 필요한 상황이 생깁니다.
1⃣ 모든 값이 유니크(Unique)할 때
# 예: ID, 고객번호, 주문번호 등 df['customer_id'].nunique() == len(df) # True면 삭제 고려숫자형: 그냥 두어도 모델이 알아서 중요도를 낮게 평가함
삭제하지 않아도 큰 문제 없음
문자형: 인코딩 시 차원이 폭발하므로 삭제 추천! ⚠
Label Encoding하면 의미 없는 순서 관계 생성
One-Hot Encoding하면 컬럼 수 = 행 수가 급증합니다.(1분내 소화 불과)
2⃣ 인코딩이 어려울 때
# 예: 자유 텍스트, 주소, 이메일 등 df['comment'].head() # "배송이 빨라요", "포장이 깔끔합니다", "재구매 의사 있음"...베이스라인: 일단 삭제하고 모델 돌리기
심화 전략: 시간이 남으면 살릴 방법 고민
텍스트 길이, 특정 키워드 포함 여부 등 파생변수 생성
ex) 항공편명(KE1234) → 항공사(KE) + 편명(1234) 따로 추출
3⃣ 결측치가 과도하게 많을 때 (80~90% 이상)
df['컬럼'].isnull().sum() / len(df)베이스라인: 일단 삭제하고 안전하게 가기
심화 전략: 시간이 남으면 살릴 방법 고민
결측 여부 자체를 임의값으로 대입
삭제한 평가지표 결과와 채운 후 결과 비교
💡 위와 같이 처리가 어려운 컬럼이 나온다면?
1차: 베이스라인 빠르게 완성 (30~40분)
2번, 3번 케이스는 과감히 삭제
1번은 문자형이면 삭제, 숫자형이면 그대로 둬도 OK
일단 제출 가능한 코드 완성
2차: 시간이 남으면 심화 (여유 있을 때만)
삭제했던 컬럼 살릴 방법 시도
성능 개선 여부 확인
⚠ 주의사항
시간 관리가 최우선! 완벽한 전처리보다 제출 가능한 코드가 중요
베이스라인에서는 삭제하고 1차 제출 후, 시간 남을 때 재도전! 2차 제출
✅1. ANOVA / 이원분산분석 / 일원분산분석
→ 범주형 요인은
C()사용이 정석예:
model = ols("y ~ C(group)", data=df).fit() anova_lm(model)ANOVA는 애초에 “집단 간 평균 차이”를 비교하는 분석 → 요인이 범주형.
따라서 문제에서 말로 “범주형”이라고 안 써줘도,
요인 자체가 그룹 변수이므로 C()가 기본값입니다.
즉,
✔ 숫자로 되어 있어도 → C()
✔ 문자로 되어 있어도 → C()❌2. 회귀분석 (ols)
➡문제에서 범주형이라고 명시된 변수만 C()
예:
ols("y ~ x1 + region", data=df)숫자로 되어 있다고 해서 자동으로 범주형 처리하는 것은 잘못
문제에서 “범주형 변수이다”라고 하지 않은 숫자형은 연속형으로 취급
❌3. 로지스틱 회귀( logit)
➡ols와 동일 원칙
예:
logit("target ~ x1 + job_type", data=df)logit 는 문제에서 “범주형”이라고 적혀 있을 때만 C() 필요.
그 외에는 절대 알아서 C() 넣지 않음.
아쉽지만 실행 단축키는 없습니다.
주석 : Ctrl + /
여러줄 주석: 블록 잡은 다음 Ctrl + /확대: Ctrl + ‘+’
축소: Ctrl + ’-’
모니터가 작으면...줄 앞 이동: Ctrl + 왼쪽 방향키
괄호할 때 주로 사용줄 뒤 이동: Ctrl + 오른쪽 방향키
괄호할 때 주로 사용찾기(검색):Ctrl + f
Ctrl + f는 기본 데이터 탭에서도 사용가능함

dir과 help로 출력된 내용을 '메모장'으로 복사-붙여넣기(마우스로 해야함)
검색 기능을 사용할 수 있음
실행 결과(출력) 자체에서는 검색 불가함

실기 체험 하기 링크






