inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

7회 기출유형(작업형3)

정규성을 만족하지 않은 가설검정 (단일표본, 대응표본)

211

wanzy123

작성한 질문수 13

0

정규성을 만족하지 않을 때

단일 표본과 대응 표본에서 윌콕슨을 사용하려고 합니다.

 

이때 단일 표본 stats.wilcoxon(df['관측치명']-평균값, alternative=) 라 했을 때

차이로(df['관측치명']-평균값) 계산하였고
대응표본은 차이로 계산이 가능하지만,
더 쉬운 방법인 df['before'], df['after'], alternative= 를 사용하였습니다.

그렇다면 단일표본에서도 df['관측치명'], 평균값으로 계산해서 될까요?

만일 안된다면, 윌콕슨은 차이 값를 기반으로 검정 통계량을 계산하는 것인데
대응표본은 두가지로 가능하면서 단일표본은 무조건 왜 -(차이)를 사용해야 하는지 궁금합니다!

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

1

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

wanzy123님의 정규성을 만족하지 않을 때 단일 표본과 대응 표본에서 윌콕슨 검정을 사용하는 방법에 대한 질문을 주의 깊게 검토했습니다. 주된 궁금증은 단일표본과 대응표본 검정 시 사용하는 데이터 입력 방식에 대한 이해와, 왜 단일표본에서는 차이를 기반으로 한 계산 방식을 사용해야 하는지에 관한 것으로 파악됩니다.

대응표본에서 df['before'], df['after'] 같이 바로 비교할 수 있는 이유는, 대응표본 검정의 경우, 두 관측치 그룹이 서로 연관되어 있으며, 이들 간의 차이가 통계적으로 유의한지를 검정하는 목적이기 때문입니다. 이러한 차이를 직접 계산하여 분석하는 것이 가능합니다.

단일 표본 검정의 경우, 관측치와 비교할 특정 기준값(예: 평균값)이 있고, 이 두 값의 차이를 검정의 기준으로 사용합니다. 윌콕슨 검정은 이 차이가 존재하는지 여부를 판단하는 데 사용됩니다. 따라서 단일표본에서는 특정 값(예: 평균 값)과의 차이를 계산해 이를 기반으로 검정해야 합니다. 직접적으로 df['관측치명'], 평균값을 비교하는 방식은 윌콕슨 검정에서 지원하지 않습니다.

이러한 개념에 대해 상세히 다루고 있는 유사한 질문과 답변을 참조하시면 도움이 될 것 같습니다:

  • 정규성을 만족하지 않은 검정에서, 사전에 정규성이 가정되지 않을 때 사용하는 검정법인 Wilcoxon 검정과 Mann_whitney U검정에 대해 설명하고 있습니다. 특히, Wilcoxon 검정이 단일표본과 대응표본 경우에 어떤 방식으로 사용되는지에 대한 개요를 제공합니다. 단일표본 및 대응표본 검정에서 Wilcoxon 검정을 사용하는 구체적인 방법과 그 이유에 대해 더 심층적으로 이해하고자 한다면 이 링크가 유용할 것입니다.

wanzy123님의 질문에 대해 좀 더 구체적이고 명홰한 설명이 필요하다면, 위 링크를 참조하시길 바랍니다. 설명이 다소 기술적인 부분을 포함하고 있어 혼란스러울 수 있지만, 각 검정 방법을 적용하는 맥락과 통계적 접근법의 기본 원리를 이해하는 데 도움이 될 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

0

퇴근후딴짓

데이터가 정규성을 만족하지 않을 때 사용하는 비모수 검정 방법입니다

단일 표본 검정과 대응 표본 검정 모두 차이를 계산하지만 사용방법과 의미가 다릅니다.

  1. 단일 표본 윌콕슨 부호 순위 검정에서는 데이터가 특정 값(중앙값)과 차이가 있는지를 테스트합니다. 이때, 데이터에서 예상값(또는 비교 대상 값)을 빼서 차이를 계산한 후, 그 차이에 대해 검정을 수행합니다.


    평균값이 아닌 중앙값입니다.

  2. 대응 표본 윌콕슨 부호 순위 검정에서는 두 관련 표본 사이의 차이를 테스트합니다. 이 경우 두 표본 간의 차이를 직접 계산할 수도 있지만, wilcoxon 함수는 두 값을 받아 처리할 수 있습니다:

원핫인코딩과 레이블 인코딩에서 concat

0

11

2

제2유형 질문입니다.

0

22

2

C()

0

18

2

작업형 2에서 strafity 적용 유무

0

25

2

수강 기간 연장 가능 여부 문의드립니다.

0

19

1

ols

0

22

2

2유형 작성관련 질문(일반 심화)

0

22

2

2유형 작성관련 질문

0

19

2

2유형 object컬럼 개수 다르면

0

22

2

코딩팡질문이요ㅠㅠ

0

23

2

관찰값과 기대값의 개념이 헷갈립니다.

0

13

2

작업형2 ID 컬럼 삭제 질문

0

23

2

2유형 작성관련 질문

0

21

2

memoryerror 질문

0

18

2

작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?

0

21

1

ID 삭제 필수 인가요?

0

19

3

7회 기출문제 작업형1번 df 변환 후 저장되는 방식 질문

0

16

2

3 유형 귀무가설, 대립가설

0

20

2

인코딩 관련 질문 있습니다

0

24

2

작업형3 이원분산분석 sm에서불러오기 / anova_lm 차이

0

29

2

2유형 원핫인코딩 오류

0

23

2

시험장에서 주석 단축키 안될 때 많나요?

0

29

2

라벨인코딩 방식

0

29

2

test 재학습 관련

0

18

2