인프런 커뮤니티 질문&답변

홍영준

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

대응표본검정

대응표본검정 강의 질문

해결된 질문

작성

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요

대응표본검정 심화 부분

# Shapiro-Wilk(샤피로-윌크) 정규성 검정
df['diff'] = df['after'] - df['before'] 
from scipy import stats
stats.shapiro(df['diff'])

# Wilcoxon(윌콕슨)의 부호 순위 검정 수행
stats.wilcoxon(df['after'], df['before'], alternative = 'greater')

결과 : WilcoxonResult(statistic=np.float64(47.5), pvalue=np.float64(0.017578125))

강의와 p-value값이 차이가 있는데 잘못된 부분이 있을까요?

(강의 p-value 값 : 0.024410625)

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

안녕하세요!

코랩 stats 버전이 업데이트 되면서 값이 달라졌네요!

윌콕슨 검정은 출제 가능성이 매우 낮을 것으로 예상됩니다.

테스트 해보니 시험환경에서는 영상과 동일한 버전이라 같은 결과가 나옵니다.

그런데 R과 값이 거의 같아야 한는데 소수 셋째자리부터 달라져 정답이 있는 작업형 3에서는 출제 가능성이 낮아 보입니다.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

홍영준님이 진행하신 대응표본검정에서 p-value 값의 차이에 대해 질문해주셨네요. 이러한 차이는 여러 가지 요인에 의해 발생할 수 있으며, 실습 중인 데이터셋의 변화나 환경 설정 등의 이유로 인해 발생할 수 있습니다. 정규성 검정과 같은 통계적 검정에서 p-value가 약간 달라지는 것은 비교적 일반적으로 일어날 수 있는 현상입니다.

데이터 확인: 사용하신 데이터셋(scipy.stats.wilcoxon의 입력)이 강의에서 사용한 데이터셋과 동일한지 다시 확인해보세요. 데이터셋이 다르거나 일부 값에 변화가 있다면 결과가 다르게 나올 수 있습니다.
버전 차이: 사용 중인 scipy 라이브러리 버전이 강의와 다른 경우, 내부 알고리즘의 변경으로 인해 결과가 달라질 수 있습니다. scipy의 최신 버전에서 계산 방법의 개선이 있을 수 있으므로, 필요하다면 강의에서 사용된 버전과 비교해보시는 것도 좋습니다.
환경 차이: 코드 실행 환경(로컬, Jupyter Notebook, Colab 등)에 따라 의도치 않게 결과가 달라질 수 있습니다. 같은 수식이라 해도 컴퓨팅 환경 차이로 인해 미세한 p-value 차이가 발생할 수 있습니다.

위의 사항들을 모두 확인하고도 차이가 난다면, 데이터 및 코드의 세부적인 부분을 더 자세히 살펴보아야 할 수도 있습니다.

이와 관련된 유사한 질문들은 아래의 링크에서 확인할 수 있습니다:

Wilcoxon 검정 관련 질문: 대응표본 검정에서 Wilcoxon 검정 사용 및 결과 차이에 대해 다룬 질문입니다. 세부적인 상황이 다를 수 있으니 참고 자료로 살펴보세요.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

홍영준

작성한 질문수

전체 Q&A

질문하기