채널톡 아이콘

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

비전공자, 입문자가 빅데이터 분석기사 실기를 빠르게 취득할 수 있도록 안내해드려요! 이론은 가볍게, 실전은 확실하게 복잡한 배경지식 없이도, 기출문제를 중심으로 시험에 꼭 나오는 포인트만 집중 학습합니다.

(4.9) 수강평 768개

수강생 4,975명

난이도 입문

수강기한 12개월

새소식

77 개

  • 11회 빅데이터 분석기사 실기 결과가 최종 발표되었습니다!

    합격하신 분들 진심으로 축하드립니다. 혹시 아쉬운 결과를 받으신 분들은 이번 경험을 발판 삼아 내년에 더 성장하겠다는 마음으로 한번 더 함께 하시죠!!

    저도 이번 시험 내용과 여러분께서 남겨주신 피드백을 반영해서, 내년에는 더욱 업데이트된 강의로 찾아뵙겠습니다. 💪💪💪

     

    그리고

    쑥스럽지만, 여러분 덕분에 어제 인프런 어워드에서 상을 받았습니다! 정말 감사드립니다 :)

    연말 마무리 잘하시고 행복한 크리스마스와 새해 보내세요! 🙇🏼‍♂️🙇🏼‍♂️🙇🏼‍♂️

     

    IMG_4398.JPG

     

    1
  • 결과가 나와봐야 알겠지만 11회 시험 영상으로 정리해 봤습니다.

    https://youtu.be/X_fcHPYcPMo

    0
  • 빅데이터분석기사 시험 보신 분들 고생 많으셨습니다!

    ttest와 민감도를 제외하면

    지난 기출과 유사해 무난하다는 의견인데 여러분들은 어떠셨나요? (궁금)

    5
  • 퇴근후딴짓님의 프로필 이미지

    수정됨

    등분산이라는 내용이 문제에 없는데 왜 equal_var=True인가요?
    질문 주신 송**님께 감사드립니다.

     

    체험 문제의 작업형 3 – 소문제 3번에서
    문제 텍스트에는 “등분산”이라는 표현이 직접 등장하지 않습니다.

    그런데 풀이에서는 아래와 같이

    #3
    from scipy import stats
    result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True)
    print(round(result.pvalue,3))

    등분산 가정(Student t-test)을 사용했습니다.
    그 이유는 다음과 같습니다.

     

    문제는 다음 흐름으로 구성된 전형적인 3단계 검정 문제였습니다.

    • F-검정으로 두 집단의 분산 차이를 확인

    • 합동 분산 추정량 계산

    • 그 합동 분산을 이용해 독립표본 t-검정 수행

    합동 분산을 구한다는 말 자체가 이미 두 집단의 분산이 동일하다는 가정을 전제로 합니다.

    따라서 equal_var=True를 사용한 풀이로 접근했습니다.


    추가로

    • 단일표본 t검정: 등분산 검정 불필요 (비교할 두 그룹이 없음)

    • 대응표본 t검정: 등분산 검정 불필요 (차이값만 사용)

    • 독립표본 t검정: 등분산 검정 고려

     

    0
  • 내일 빅분기 시험이네요

    시험 잘 보고 오시길 기원하며 작업형3 문제표현 예시 정리했습니다.

    시험 잘 보고 오세요 👏👏

    image.png

    +예시문제 유형 학습

    -비모수는 우선순위가 낮아 제외

    0
  • 퇴근후딴짓님의 프로필 이미지

    수정됨

    기출 vs 연습문제의 차이점

    기출문제나 예시문제에서는 컬럼을 삭제하는 경우가 없었습니다.

    하지만 연습/모의 문제에서 더 복잡한 데이터를 다루다 보면 컬럼 삭제가 필요한 상황이 생깁니다.

     

    1⃣ 모든 값이 유니크(Unique)할 때

    # 예: ID, 고객번호, 주문번호 등
    df['customer_id'].nunique() == len(df)  # True면 삭제 고려
    • 숫자형: 그냥 두어도 모델이 알아서 중요도를 낮게 평가함

      • 삭제하지 않아도 큰 문제 없음

    • 문자형: 인코딩 시 차원이 폭발하므로 삭제 추천!

      • Label Encoding하면 의미 없는 순서 관계 생성

      • One-Hot Encoding하면 컬럼 수 = 행 수가 급증합니다.(1분내 소화 불과)

    2⃣ 인코딩이 어려울 때

    # 예: 자유 텍스트, 주소, 이메일 등
    df['comment'].head()
    # "배송이 빨라요", "포장이 깔끔합니다", "재구매 의사 있음"...
    • 베이스라인: 일단 삭제하고 모델 돌리기

    • 심화 전략: 시간이 남으면 살릴 방법 고민

      • 텍스트 길이, 특정 키워드 포함 여부 등 파생변수 생성

      • ex) 항공편명(KE1234) → 항공사(KE) + 편명(1234) 따로 추출

    3⃣ 결측치가 과도하게 많을 때 (80~90% 이상)

    df['컬럼'].isnull().sum() / len(df)
    • 베이스라인: 일단 삭제하고 안전하게 가기

    • 심화 전략: 시간이 남으면 살릴 방법 고민

      • 결측 여부 자체를 임의값으로 대입

         

        삭제한 평가지표 결과와 채운 후 결과 비교

    💡 위와 같이 처리가 어려운 컬럼이 나온다면?

    1. 1차: 베이스라인 빠르게 완성 (30~40분)

      • 2번, 3번 케이스는 과감히 삭제

      • 1번은 문자형이면 삭제, 숫자형이면 그대로 둬도 OK

      • 일단 제출 가능한 코드 완성

    2. 2차: 시간이 남으면 심화 (여유 있을 때만)

      • 삭제했던 컬럼 살릴 방법 시도

      • 성능 개선 여부 확인

     

    주의사항

    • 시간 관리가 최우선! 완벽한 전처리보다 제출 가능한 코드가 중요

       

    • 베이스라인에서는 삭제하고 1차 제출 후, 시간 남을 때 재도전! 2차 제출

    0
  • 1. ANOVA / 이원분산분석 / 일원분산분석

    → 범주형 요인은 C() 사용이 정석

    예:

    model = ols("y ~ C(group)", data=df).fit()
    anova_lm(model)
    • ANOVA는 애초에 “집단 간 평균 차이”를 비교하는 분석 → 요인이 범주형.

    • 따라서 문제에서 말로 “범주형”이라고 안 써줘도,

    • 요인 자체가 그룹 변수이므로 C()가 기본값입니다.

    즉,
    숫자로 되어 있어도 → C()
    문자로 되어 있어도 → C()


    2. 회귀분석 (ols)

    문제에서 범주형이라고 명시된 변수만 C()

    예:

    ols("y ~ x1 + region", data=df)
    
    • 숫자로 되어 있다고 해서 자동으로 범주형 처리하는 것은 잘못

    • 문제에서 “범주형 변수이다”라고 하지 않은 숫자형은 연속형으로 취급

       


    3. 로지스틱 회귀( logit)

    ols와 동일 원칙

    예:

    logit("target ~ x1 + job_type", data=df)
    
    • logit 는 문제에서 “범주형”이라고 적혀 있을 때만 C() 필요.
      그 외에는 절대 알아서 C() 넣지 않음.

    0
  • 아쉽지만 실행 단축키는 없습니다.

    • 주석 : Ctrl  + /
      여러줄 주석: 블록 잡은 다음 Ctrl  + /

    • 확대: Ctrl + ‘+’  

    • 축소: Ctrl + ’-’ 모니터가 작으면...

    • 줄 앞 이동: Ctrl + 왼쪽 방향키 괄호할 때 주로 사용

    • 줄 뒤 이동: Ctrl + 오른쪽 방향키 괄호할 때 주로 사용

    • 찾기(검색):Ctrl + f

       

      • Ctrl + f는 기본 데이터 탭에서도 사용가능함

        image.png
      • dir과 help로 출력된 내용을 '메모장'으로 복사-붙여넣기(마우스로 해야함)

      • 검색 기능을 사용할 수 있음

      • 실행 결과(출력) 자체에서는 검색 불가함

         

        image.png

     

    실기 체험 하기 링크

    https://dataq.goorm.io/exam/3/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%EC%B2%B4%ED%97%98/quiz/2%3Fembed

    0

월 ₩24,200

5개월 할부 시

₩121,000