[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
비전공자, 입문자가 빅데이터 분석기사 실기를 빠르게 취득할 수 있도록 안내해드려요! 이론은 가볍게, 실전은 확실하게 복잡한 배경지식 없이도, 기출문제를 중심으로 시험에 꼭 나오는 포인트만 집중 학습합니다.
수강생 5,185명
난이도 입문
수강기한 12개월

작업형 1 연습문제가 업데이트되었습니다. 🥰
아직 학습하지 않으셨다면, 신규 버전으로 학습해 주시기 바랍니다.
기존(구) 버전은 순차적으로 삭제될 예정입니다.
다만, 현재 수강 중인 수험생분들을 고려하여 5월까지는 하단에 유지한 후 삭제하겠습니다.신규 추가 강의 리스트

삭제 예정 강의 리스트

5월까지 업데이트가 진행되어 순서가 변경될 수 있으니 양해 부탁드립니다
감사합니다.
이번 시험 합격 응원합니다.
2026년 최신 개정판 도서를 출간했습니다.
혹시 아직 도서를 보유하고 계시지 않다면, 이벤트에도 참여해 보세요! (10명 증정)
https://youtube.com/shorts/EVDZYsDurOI?si=hYk02shY_tOHbu39
기존 도서를 가지고 계시더라도, 강의를 수강 중이시라면 전혀 문제 없습니다.
최신 내용으로 모두 업데이트해 드리겠습니다!
그리고 12회 준비를 위한 "오징어 게임" 챌린지도 곧 준비해 안내드릴게요!
감사합니다.
11회 빅데이터 분석기사 실기 결과가 최종 발표되었습니다!
합격하신 분들 진심으로 축하드립니다. 혹시 아쉬운 결과를 받으신 분들은 이번 경험을 발판 삼아 내년에 더 성장하겠다는 마음으로 한번 더 함께 하시죠!!
저도 이번 시험 내용과 여러분께서 남겨주신 피드백을 반영해서, 내년에는 더욱 업데이트된 강의로 찾아뵙겠습니다. 💪💪💪
그리고
쑥스럽지만, 여러분 덕분에 어제 인프런 어워드에서 상을 받았습니다! 정말 감사드립니다 :)
연말 마무리 잘하시고 행복한 크리스마스와 새해 보내세요! 🙇🏼♂️🙇🏼♂️🙇🏼♂️
결과가 나와봐야 알겠지만 11회 시험 영상으로 정리해 봤습니다.
빅데이터분석기사 시험 보신 분들 고생 많으셨습니다!
ttest와 민감도를 제외하면
지난 기출과 유사해 무난하다는 의견인데 여러분들은 어떠셨나요? (궁금)
등분산이라는 내용이 문제에 없는데 왜
equal_var=True인가요?
질문 주신 송**님께 감사드립니다.체험 문제의 작업형 3 – 소문제 3번에서
문제 텍스트에는 “등분산”이라는 표현이 직접 등장하지 않습니다.그런데 풀이에서는 아래와 같이
#3 from scipy import stats result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True) print(round(result.pvalue,3))등분산 가정(Student t-test)을 사용했습니다.
그 이유는 다음과 같습니다.문제는 다음 흐름으로 구성된 전형적인 3단계 검정 문제였습니다.
F-검정으로 두 집단의 분산 차이를 확인
합동 분산 추정량 계산
그 합동 분산을 이용해 독립표본 t-검정 수행
합동 분산을 구한다는 말 자체가 이미 두 집단의 분산이 동일하다는 가정을 전제로 합니다.
따라서
equal_var=True를 사용한 풀이로 접근했습니다.
추가로단일표본 t검정: 등분산 검정 불필요 (비교할 두 그룹이 없음)
대응표본 t검정: 등분산 검정 불필요 (차이값만 사용)
독립표본 t검정: 등분산 검정 고려
내일 빅분기 시험이네요
시험 잘 보고 오시길 기원하며 작업형3 문제표현 예시 정리했습니다.
시험 잘 보고 오세요 👏👏

+예시문제 유형 학습
-비모수는 우선순위가 낮아 제외
기출 vs 연습문제의 차이점
기출문제나 예시문제에서는 컬럼을 삭제하는 경우가 없었습니다.
하지만 연습/모의 문제에서 더 복잡한 데이터를 다루다 보면 컬럼 삭제가 필요한 상황이 생깁니다.
1⃣ 모든 값이 유니크(Unique)할 때
# 예: ID, 고객번호, 주문번호 등 df['customer_id'].nunique() == len(df) # True면 삭제 고려숫자형: 그냥 두어도 모델이 알아서 중요도를 낮게 평가함
삭제하지 않아도 큰 문제 없음
문자형: 인코딩 시 차원이 폭발하므로 삭제 추천! ⚠
Label Encoding하면 의미 없는 순서 관계 생성
One-Hot Encoding하면 컬럼 수 = 행 수가 급증합니다.(1분내 소화 불과)
2⃣ 인코딩이 어려울 때
# 예: 자유 텍스트, 주소, 이메일 등 df['comment'].head() # "배송이 빨라요", "포장이 깔끔합니다", "재구매 의사 있음"...베이스라인: 일단 삭제하고 모델 돌리기
심화 전략: 시간이 남으면 살릴 방법 고민
텍스트 길이, 특정 키워드 포함 여부 등 파생변수 생성
ex) 항공편명(KE1234) → 항공사(KE) + 편명(1234) 따로 추출
3⃣ 결측치가 과도하게 많을 때 (80~90% 이상)
df['컬럼'].isnull().sum() / len(df)베이스라인: 일단 삭제하고 안전하게 가기
심화 전략: 시간이 남으면 살릴 방법 고민
결측 여부 자체를 임의값으로 대입
삭제한 평가지표 결과와 채운 후 결과 비교
💡 위와 같이 처리가 어려운 컬럼이 나온다면?
1차: 베이스라인 빠르게 완성 (30~40분)
2번, 3번 케이스는 과감히 삭제
1번은 문자형이면 삭제, 숫자형이면 그대로 둬도 OK
일단 제출 가능한 코드 완성
2차: 시간이 남으면 심화 (여유 있을 때만)
삭제했던 컬럼 살릴 방법 시도
성능 개선 여부 확인
⚠ 주의사항
시간 관리가 최우선! 완벽한 전처리보다 제출 가능한 코드가 중요
베이스라인에서는 삭제하고 1차 제출 후, 시간 남을 때 재도전! 2차 제출






