작업형3의 범주형 데이터 분석(카이제곱 검정)의 적합도검정 설명에서 질문 드립니다.

Question

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요 먼저 유사한 질문이 있었는지 검색해보세요 작업형3의 범주형 데이터 분석(카이제곱 검정)의 적합도검정 설명에서 질문 드립니다.(2분 38초) 문제풀이에 대해 질문드립니다. 문제를 풀기 위해서는 부산의 기대도수가 제시되어야 하지 않나요? 찍먹과 부먹의 비율로 부산 0.6, 0.4이고 수원의 기대도수는 1,1,2,2,1 이라고 했을 때 [3, 2] 부산의 기대도수가 제시되지 않은 상태에서 수원의 기대도수 5를 부산에 그대로 대입하였는데 이는 기대도수는 관찰하려는 도시(부산,수원)을 동일하게 맞췄기 때문인건가요. 왜냐하면 문제에서는 공교롭게도 부산의 60%, 40% -> 3:2비율과 수원의 60%, 40%->3:2비율이 동일하기 때문입니다. 즉, 수원이 5면 부산도 동일한 조건으로 해야 한다는 가정을 두는 것인가요? 부산에 경우 기대도수가 일반적으로 타 지역인 수원과 동일하지는 않습니다. 부산은 1,1,1,1,2처럼 수원과 다르게 나올 수 있습니다. 그럼 4, 1이 되니 총개수 5로 곱하면 [0.8*5=4, 0.2*5=1]이 되어 부산[3,2]과 수원[4,1]의 빈도는 차이가 납니다. 하지만, 문제에서는 결과가 동일하게 나왔던데요 이처럼 뒷 부분을 이해하지 못했습니다.

퇴근후딴짓 · Answer

아래 재질문 글에서 답변드렸습니다. 감사합니다.
https://www.inflearn.com/community/questions/1509533/%EC%9E%AC%EC%A7%88%EB%AC%B8-%EC%9D%B4%EC%A0%84-%EC%A7%88%EB%AC%B8%EC%9D%84-%EB%8B%A4%EC%8B%9C-%EB%93%9C%EB%A6%BD%EB%8B%88%EB%8B%A4

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 강민균님께서 주신 카이제곱 검정 관련 질문에 대해 답변드리겠습니다. 카이제곱 검정에서 기대도수는 실제로 관찰된 데이터와 비교하기 위한 이론값으로, 주어진 가설을 바탕으로 계산된 값입니다. 특히, 기대도수는 카이제곱 검정의 잔차 계산에 중요한 역할을 하며, 이는 검정의 결과값에 직간접적인 영향을 미칩니다. 질문 주신 상황에서는 두 집단인 부산과 수원에 대한 기대도수를 비교하면서, 두 집단의 분포가 동일할 것이라는 전제를 두고 분석을 진행한 것으로 보입니다. 카이제곱 검정에서는 보통 각 집단의 총 사례 수를 사용하여 기대도수를 균일하게 맞추는 과정을 통해 통계적 일관성을 유지합니다. 부산과 수원의 기대도를 동일하게 설정한 것은 주어진 데이터에서 특정한 비율이 동일하기 때문이며, 이는 기대값을 설정하는 방법 중 하나입니다. 실제로는, 두 집단의 사례가 다르더라도 비율에 근거하여 동일한 기준에서 검정을 진행하는 것이 일반적입니다. 이와 관련하여 유사한 카드에는 다음과 같은 질문들이 있습니다. 그 중 하나는 작업형 3유형 카이제곱 검정 관련 설명 이며, 여기서도 카이제곱 검정의 활용과 기댓값 설정에 대한 기본적인 접근법을 논의한 바 있습니다. 이 답변이 강민균님의 이해에 도움이 되었기를 바랍니다. 카이제곱 검정에서의 기댓값 계산이 복잡하게 느껴질 수 있으니, 계속해서 궁금한 부분은 추가 질문을 주시면 더욱 자세히 돕겠습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.