채널톡 아이콘

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

비전공자, 입문자가 빅데이터 분석기사 실기를 빠르게 취득할 수 있도록 안내해드려요! 이론은 가볍게, 실전은 확실하게 복잡한 배경지식 없이도, 기출문제를 중심으로 시험에 꼭 나오는 포인트만 집중 학습합니다.

(4.9) 수강평 780개

수강생 5,185명

난이도 입문

수강기한 12개월

새소식

79 개

  • 작업형 1 연습문제가 업데이트되었습니다. 🥰

    아직 학습하지 않으셨다면, 신규 버전으로 학습해 주시기 바랍니다.

     

    기존(구) 버전은 순차적으로 삭제될 예정입니다.
    다만, 현재 수강 중인 수험생분들을 고려하여 5월까지는 하단에 유지한 후 삭제하겠습니다.

     

    신규 추가 강의 리스트

    image.png

     

     

    삭제 예정 강의 리스트

    image.png

     

     

    5월까지 업데이트가 진행되어 순서가 변경될 수 있으니 양해 부탁드립니다

    감사합니다.

    이번 시험 합격 응원합니다.

    1
  • 2026년 최신 개정판 도서를 출간했습니다.

    혹시 아직 도서를 보유하고 계시지 않다면, 이벤트에도 참여해 보세요! (10명 증정)

    https://youtube.com/shorts/EVDZYsDurOI?si=hYk02shY_tOHbu39

     

    기존 도서를 가지고 계시더라도, 강의를 수강 중이시라면 전혀 문제 없습니다.

    최신 내용으로 모두 업데이트해 드리겠습니다!

     

    DSC_4304.JPG

     

    그리고 12회 준비를 위한 "오징어 게임" 챌린지도 곧 준비해 안내드릴게요!

    감사합니다.

     

    0
  • 11회 빅데이터 분석기사 실기 결과가 최종 발표되었습니다!

    합격하신 분들 진심으로 축하드립니다. 혹시 아쉬운 결과를 받으신 분들은 이번 경험을 발판 삼아 내년에 더 성장하겠다는 마음으로 한번 더 함께 하시죠!!

    저도 이번 시험 내용과 여러분께서 남겨주신 피드백을 반영해서, 내년에는 더욱 업데이트된 강의로 찾아뵙겠습니다. 💪💪💪

     

    그리고

    쑥스럽지만, 여러분 덕분에 어제 인프런 어워드에서 상을 받았습니다! 정말 감사드립니다 :)

    연말 마무리 잘하시고 행복한 크리스마스와 새해 보내세요! 🙇🏼‍♂️🙇🏼‍♂️🙇🏼‍♂️

     

    IMG_4398.JPG

     

    1
  • 결과가 나와봐야 알겠지만 11회 시험 영상으로 정리해 봤습니다.

    https://youtu.be/X_fcHPYcPMo

    0
  • 빅데이터분석기사 시험 보신 분들 고생 많으셨습니다!

    ttest와 민감도를 제외하면

    지난 기출과 유사해 무난하다는 의견인데 여러분들은 어떠셨나요? (궁금)

    5
  • 퇴근후딴짓님의 프로필 이미지

    수정됨

    등분산이라는 내용이 문제에 없는데 왜 equal_var=True인가요?
    질문 주신 송**님께 감사드립니다.

     

    체험 문제의 작업형 3 – 소문제 3번에서
    문제 텍스트에는 “등분산”이라는 표현이 직접 등장하지 않습니다.

    그런데 풀이에서는 아래와 같이

    #3
    from scipy import stats
    result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True)
    print(round(result.pvalue,3))

    등분산 가정(Student t-test)을 사용했습니다.
    그 이유는 다음과 같습니다.

     

    문제는 다음 흐름으로 구성된 전형적인 3단계 검정 문제였습니다.

    • F-검정으로 두 집단의 분산 차이를 확인

    • 합동 분산 추정량 계산

    • 그 합동 분산을 이용해 독립표본 t-검정 수행

    합동 분산을 구한다는 말 자체가 이미 두 집단의 분산이 동일하다는 가정을 전제로 합니다.

    따라서 equal_var=True를 사용한 풀이로 접근했습니다.


    추가로

    • 단일표본 t검정: 등분산 검정 불필요 (비교할 두 그룹이 없음)

    • 대응표본 t검정: 등분산 검정 불필요 (차이값만 사용)

    • 독립표본 t검정: 등분산 검정 고려

     

    0
  • 내일 빅분기 시험이네요

    시험 잘 보고 오시길 기원하며 작업형3 문제표현 예시 정리했습니다.

    시험 잘 보고 오세요 👏👏

    image.png

    +예시문제 유형 학습

    -비모수는 우선순위가 낮아 제외

    0
  • 퇴근후딴짓님의 프로필 이미지

    수정됨

    기출 vs 연습문제의 차이점

    기출문제나 예시문제에서는 컬럼을 삭제하는 경우가 없었습니다.

    하지만 연습/모의 문제에서 더 복잡한 데이터를 다루다 보면 컬럼 삭제가 필요한 상황이 생깁니다.

     

    1⃣ 모든 값이 유니크(Unique)할 때

    # 예: ID, 고객번호, 주문번호 등
    df['customer_id'].nunique() == len(df)  # True면 삭제 고려
    • 숫자형: 그냥 두어도 모델이 알아서 중요도를 낮게 평가함

      • 삭제하지 않아도 큰 문제 없음

    • 문자형: 인코딩 시 차원이 폭발하므로 삭제 추천!

      • Label Encoding하면 의미 없는 순서 관계 생성

      • One-Hot Encoding하면 컬럼 수 = 행 수가 급증합니다.(1분내 소화 불과)

    2⃣ 인코딩이 어려울 때

    # 예: 자유 텍스트, 주소, 이메일 등
    df['comment'].head()
    # "배송이 빨라요", "포장이 깔끔합니다", "재구매 의사 있음"...
    • 베이스라인: 일단 삭제하고 모델 돌리기

    • 심화 전략: 시간이 남으면 살릴 방법 고민

      • 텍스트 길이, 특정 키워드 포함 여부 등 파생변수 생성

      • ex) 항공편명(KE1234) → 항공사(KE) + 편명(1234) 따로 추출

    3⃣ 결측치가 과도하게 많을 때 (80~90% 이상)

    df['컬럼'].isnull().sum() / len(df)
    • 베이스라인: 일단 삭제하고 안전하게 가기

    • 심화 전략: 시간이 남으면 살릴 방법 고민

      • 결측 여부 자체를 임의값으로 대입

         

        삭제한 평가지표 결과와 채운 후 결과 비교

    💡 위와 같이 처리가 어려운 컬럼이 나온다면?

    1. 1차: 베이스라인 빠르게 완성 (30~40분)

      • 2번, 3번 케이스는 과감히 삭제

      • 1번은 문자형이면 삭제, 숫자형이면 그대로 둬도 OK

      • 일단 제출 가능한 코드 완성

    2. 2차: 시간이 남으면 심화 (여유 있을 때만)

      • 삭제했던 컬럼 살릴 방법 시도

      • 성능 개선 여부 확인

     

    주의사항

    • 시간 관리가 최우선! 완벽한 전처리보다 제출 가능한 코드가 중요

       

    • 베이스라인에서는 삭제하고 1차 제출 후, 시간 남을 때 재도전! 2차 제출

    0

월 ₩24,200

5개월 할부 시

₩121,000