강의

멘토링

커뮤니티

BEST
데이터 사이언스

/

데이터 사이언스 자격증

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

비전공자, 입문자가 빅데이터 분석기사 실기를 빠르게 취득할 수 있도록 안내해드려요! 이론은 가볍게, 실전은 확실하게 복잡한 배경지식 없이도, 기출문제를 중심으로 시험에 꼭 나오는 포인트만 집중 학습합니다.

(4.9) 수강평 768개

수강생 4,974명

난이도 입문

수강기한 12개월

  • 퇴근후딴짓
새소식 목록
관리
작성
퇴근후딴짓님의 프로필 이미지

수정됨

등분산이라는 내용이 문제에 없는데 왜 equal_var=True인가요?

등분산이라는 내용이 문제에 없는데 왜 equal_var=True인가요?
질문 주신 송**님께 감사드립니다.

 

체험 문제의 작업형 3 – 소문제 3번에서
문제 텍스트에는 “등분산”이라는 표현이 직접 등장하지 않습니다.

그런데 풀이에서는 아래와 같이

#3
from scipy import stats
result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True)
print(round(result.pvalue,3))

등분산 가정(Student t-test)을 사용했습니다.
그 이유는 다음과 같습니다.

 

문제는 다음 흐름으로 구성된 전형적인 3단계 검정 문제였습니다.

  • F-검정으로 두 집단의 분산 차이를 확인

  • 합동 분산 추정량 계산

  • 그 합동 분산을 이용해 독립표본 t-검정 수행

합동 분산을 구한다는 말 자체가 이미 두 집단의 분산이 동일하다는 가정을 전제로 합니다.

따라서 equal_var=True를 사용한 풀이로 접근했습니다.


추가로

  • 단일표본 t검정: 등분산 검정 불필요 (비교할 두 그룹이 없음)

  • 대응표본 t검정: 등분산 검정 불필요 (차이값만 사용)

  • 독립표본 t검정: 등분산 검정 고려

 

댓글