퇴근후딴짓
3달 전
연말 마무리 잘하시고 행복한 크리스마스와 새해 보내세요! 🙇🏼‍♂️🙇🏼‍♂️🙇🏼‍♂️
11회 빅데이터 분석기사 실기 결과가 최종 발표되었습니다!
합격하신 분들 진심으로 축하드립니다. 혹시 아쉬운 결과를 받으신 분들은 이번 경험을 발판 삼아 내년에 더 성장하겠다는 마음으로 한번 더 함께 하시죠!!
저도 이번 시험 내용과 여러분께서 남겨주신 피드백을 반영해서, 내년에는 더욱 업데이트된 강의로 찾아뵙겠습니다. 💪💪💪

그리고
쑥스럽지만, 여러분 덕분에 어제 인프런 어워드에서 상을 받았습니다! 정말 감사드립니다 :)
연말 마무리 잘하시고 행복한 크리스마스와 새해 보내세요! 🙇🏼‍♂️🙇🏼‍♂️🙇🏼‍♂️

1
퇴근후딴짓
3달 전
빅분기 11회 시험: 합격인가요?
결과가 나와봐야 알겠지만 11회 시험 영상으로 정리해 봤습니다.
https://youtu.be/X_fcHPYcPMo
0
퇴근후딴짓
3달 전
11회 시험 고생 많으셨습니다. 👏👏👏
빅데이터분석기사 시험 보신 분들 고생 많으셨습니다!
ttest와 민감도를 제외하면
지난 기출과 유사해 무난하다는 의견인데 여러분들은 어떠셨나요? (궁금)
5
퇴근후딴짓
3달 전
･
수정됨
등분산이라는 내용이 문제에 없는데 왜 equal_var=True인가요?
등분산이라는 내용이 문제에 없는데 왜 equal_var=True인가요?
질문 주신 송**님께 감사드립니다.

체험 문제의 작업형 3 – 소문제 3번에서
문제 텍스트에는 “등분산”이라는 표현이 직접 등장하지 않습니다.
그런데 풀이에서는 아래와 같이
#3 from scipy import stats result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True) print(round(result.pvalue,3))
등분산 가정(Student t-test)을 사용했습니다.
그 이유는 다음과 같습니다.

문제는 다음 흐름으로 구성된 전형적인 3단계 검정 문제였습니다.
F-검정으로 두 집단의 분산 차이를 확인
합동 분산 추정량 계산
그 합동 분산을 이용해 독립표본 t-검정 수행
합동 분산을 구한다는 말 자체가 이미 두 집단의 분산이 동일하다는 가정을 전제로 합니다.
따라서 equal_var=True를 사용한 풀이로 접근했습니다.

추가로
단일표본 t검정: 등분산 검정 불필요 (비교할 두 그룹이 없음)
대응표본 t검정: 등분산 검정 불필요 (차이값만 사용)
독립표본 t검정: 등분산 검정 고려
0
퇴근후딴짓
3달 전
작업형3 문제표현 예시 정리
내일 빅분기 시험이네요
시험 잘 보고 오시길 기원하며 작업형3 문제표현 예시 정리했습니다.
시험 잘 보고 오세요 👏👏
+예시문제 유형 학습
-비모수는 우선순위가 낮아 제외
0
퇴근후딴짓
4달 전
･
수정됨
✅ 작업형2: 컬럼 삭제는? 언제하는거야?
기출 vs 연습문제의 차이점
기출문제나 예시문제에서는 컬럼을 삭제하는 경우가 없었습니다.
하지만 연습/모의 문제에서 더 복잡한 데이터를 다루다 보면 컬럼 삭제가 필요한 상황이 생깁니다.

1⃣ 모든 값이 유니크(Unique)할 때
# 예: ID, 고객번호, 주문번호 등 df['customer_id'].nunique() == len(df) # True면 삭제 고려
숫자형: 그냥 두어도 모델이 알아서 중요도를 낮게 평가함
삭제하지 않아도 큰 문제 없음
문자형: 인코딩 시 차원이 폭발하므로 삭제 추천! ⚠
Label Encoding하면 의미 없는 순서 관계 생성
One-Hot Encoding하면 컬럼 수 = 행 수가 급증합니다.(1분내 소화 불과)
2⃣ 인코딩이 어려울 때
# 예: 자유 텍스트, 주소, 이메일 등 df['comment'].head() # "배송이 빨라요", "포장이 깔끔합니다", "재구매 의사 있음"...
베이스라인: 일단 삭제하고 모델 돌리기
심화 전략: 시간이 남으면 살릴 방법 고민
텍스트 길이, 특정 키워드 포함 여부 등 파생변수 생성
ex) 항공편명(KE1234) → 항공사(KE) + 편명(1234) 따로 추출
3⃣ 결측치가 과도하게 많을 때 (80~90% 이상)
df['컬럼'].isnull().sum() / len(df)
베이스라인: 일단 삭제하고 안전하게 가기
심화 전략: 시간이 남으면 살릴 방법 고민
결측 여부 자체를 임의값으로 대입

삭제한 평가지표 결과와 채운 후 결과 비교
💡 위와 같이 처리가 어려운 컬럼이 나온다면?
1차: 베이스라인 빠르게 완성 (30~40분)
2번, 3번 케이스는 과감히 삭제
1번은 문자형이면 삭제, 숫자형이면 그대로 둬도 OK
일단 제출 가능한 코드 완성
2차: 시간이 남으면 심화 (여유 있을 때만)
삭제했던 컬럼 살릴 방법 시도
성능 개선 여부 확인

⚠ 주의사항
시간 관리가 최우선! 완벽한 전처리보다 제출 가능한 코드가 중요

베이스라인에서는 삭제하고 1차 제출 후, 시간 남을 때 재도전! 2차 제출
0
퇴근후딴짓
4달 전
작업형 3 자주 묻는 질문: C()를 언제 쓰는가?
✅1. ANOVA / 이원분산분석 / 일원분산분석
→ 범주형 요인은 C() 사용이 정석
예:
model = ols("y ~ C(group)", data=df).fit() anova_lm(model)
ANOVA는 애초에 “집단 간 평균 차이”를 비교하는 분석 → 요인이 범주형.
따라서 문제에서 말로 “범주형”이라고 안 써줘도,
요인 자체가 그룹 변수이므로 C()가 기본값입니다.
즉,
✔ 숫자로 되어 있어도 → C()
✔ 문자로 되어 있어도 → C()
❌2. 회귀분석 (ols)
➡문제에서 범주형이라고 명시된 변수만 C()
예:
ols("y ~ x1 + region", data=df)
숫자로 되어 있다고 해서 자동으로 범주형 처리하는 것은 잘못
문제에서 “범주형 변수이다”라고 하지 않은 숫자형은 연속형으로 취급

❌3. 로지스틱 회귀( logit)
➡ols와 동일 원칙
예:
logit("target ~ x1 + job_type", data=df)
logit 는 문제에서 “범주형”이라고 적혀 있을 때만 C() 필요.
그 외에는 절대 알아서 C() 넣지 않음.
0
퇴근후딴짓
4달 전
시험 환경 크롬 브라우저 단축키
아쉽지만 실행 단축키는 없습니다.
주석 : Ctrl + /
여러줄 주석: 블록 잡은 다음 Ctrl + /
확대: Ctrl + ‘+’
축소: Ctrl + ’-’ 모니터가 작으면...
줄 앞 이동: Ctrl + 왼쪽 방향키 괄호할 때 주로 사용
줄 뒤 이동: Ctrl + 오른쪽 방향키 괄호할 때 주로 사용
찾기(검색):Ctrl + f

Ctrl + f는 기본 데이터 탭에서도 사용가능함
dir과 help로 출력된 내용을 '메모장'으로 복사-붙여넣기(마우스로 해야함)
검색 기능을 사용할 수 있음
실행 결과(출력) 자체에서는 검색 불가함

실기 체험 하기 링크
https://dataq.goorm.io/exam/3/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%EC%B2%B4%ED%97%98/quiz/2%3Fembed
0

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

새소식

기출 vs 연습문제의 차이점

1⃣ 모든 값이 유니크(Unique)할 때

2⃣ 인코딩이 어려울 때

3⃣ 결측치가 과도하게 많을 때 (80~90% 이상)

💡 위와 같이 처리가 어려운 컬럼이 나온다면?

⚠ 주의사항

✅1. ANOVA / 이원분산분석 / 일원분산분석

❌2. 회귀분석 (ols)

❌3. 로지스틱 회귀( logit)