카이제곱 통계량은 어떻게 구하면 되나요?
빅분기 실습환경이 오픈되어 제3유형 문제를 풀어보고 있는데요. 데이터는 타이타닉 침몰 생존여부 예측을 위한 자료입니다.
Gender와 Survived 변수 간의 독립성 검증을 실시하였을 때, 카이제곱 통계량은?
-오브젝트 타입을 원핫인코딩으로 변환한 후 stats.chisquare(df[ 'Gender'], df['Survived'])를 수행해야 하나요? ols를 통해 summary() 까지는 알겠는데.....그 이후 어떻게 해야 할지 잘 모르겠네요..ㅠㅠ
답변 3
1
안녕하세요, 인프런 AI 인턴입니다.
gofud38님께서 질문하신 카이제곱 통계량을 구하는 방법에 대해 알아보겠습니다. 카이제곱 검정은 두 변수 사이의 독립성을 검사하는 통계적 방법입니다. Gender와 Survived 변수 간의 독립성을 검증하기 위해, 우선적으로 pd.crosstab을 사용하여 두 변수 간의 교차 테이블을 만들고, 그 뒤에 scipy.stats의 chi2_contingency 함수를 사용하여 카이제곱 통계량, p-value, 자유도, 기대치 등을 산출할 수 있습니다.
stats.chisquare 함수는 주로 적합도 검정에 사용되며, 여기서는 chi2_contingency 함수가 더 적합한 선택입니다. 원핫인코딩 변환 후 사용하는 것이 아니라, 두 변수의 교차 테이블을 바로 해당 함수에 입력으로 제공합니다.
내용을 구체적으로 살펴보면 아래와 같은 절차를 따르게 됩니다:
1. pd.crosstab을 사용해 Gender와 Survived 간의 교차 테이블 생성.
2. scipy.stats의 chi2_contingency 함수에 1에서 생성한 교차 테이블을 입력으로 제공.
이와 관련하여 “카이제곱 통계량을 구하는 방법”에 대해 앞서 다룬 질문에서 유용한 답변을 찾을 수 있었습니다:
- 카이제곱 독립성검정에서의 검정통계량은 무슨 의미를 가지나요? 에서 검정 통계량이 관측된 빈도(observed frequency)와 기대된 빈도(expected frequency)와의 차이를 기반으로 계산되며, 이로 인해 두 변수 사이의 관련성의 유무를 판단할 수 있다는 내용이 설명되어 있습니다.
각 단계별 코드의 구체적 사용 예시를 포함해 설명을 향상시키면 이해가 더 쉬울 것입니다. 위 링크에서는 카이제곱 검정의 개념적 설명을 제공하고 있으니, 구체적인 코드 작성 방법도 확인하시면 좋을 것 같습니다.
이에 대한 질문이 있다면 편하게 추가 질문을 해 주세요. 제공된 정보를 바탕으로 답변을 준비했으나, 과정의 모든 세부 사항을 포함하기는 어려웠을 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
질문 드립니다.
0
37
2
강의 내용 관련 질문드립니다~
0
34
2
수강 연장 문의
0
31
1
강의자료 일괄 다운로드
0
41
2
수강기간 연장 문의드립니다
0
28
1
list 문제 질문드립니다~
0
28
2
빅분기 실기 12회 재도전
0
39
1
강의 기간 연장 가능여부 검토 요청건
0
30
1
수강기간 연장 문의 드립니다
0
36
2
수강기간 연장 문의드립니다
0
47
2
질문이요
0
51
2
수강기간 연장 문의드립니다.
0
48
2
문제 3-2 질문드립니다
0
43
2
수강기간 연장 문의 드립니다.
0
58
2
변수, 칼럼 , df 구분
0
47
2
수강기간 연장 문의드립니다.
0
49
2
수강기간 연장 문의
0
46
2
수강기간 연장 문의드립니다.
0
40
2
수강기한 연장 문의
0
75
2
수강기간 연장 문의드립니다
0
57
2
결정트리에서 적절한 깊이 선택 후 시각화 과정에서 학습 데이터만 사용하는 이유
0
44
2
수강기간 연장 문의드립니다.
0
70
2
수강연장 문의
0
76
2
수강연장문의
0
53
2





