강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

강민균님의 프로필 이미지
강민균

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

카이제곱 검정

[재질문] 이전 질문을 다시 드립니다.

해결된 질문

작성

·

138

·

수정됨

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요


  • 이전 질문을 다시 드립니다. 질문과는 이질적인 답변이 올라와서 질문을 정확히 전달하기 위해 이미지로 정리하였습니다.

    확인 요청에 대한 답변을 부탁 드립니다.

  • 아울러 아래는 실제 강의 내용입니다.

캡처.JPG.webp

 

  • 부산에서 알려진 찍먹 비율이 60%정도고 부먹이 40%정도라고 알려져 있다라고 하구요,

  • 수원에서 관찰을 했어요.

     

    찍먹이 1, 부먹이 2라고 하겠다. 수원데이터가 찍먹 1,1,2,2,1 이런 식으로 데이터 값이 나오겠죠. 수원에서 관찰된 데이터가 관찰값이고 부산에 %가 기대도수, 기댓값이다.

     

     

    나온 관찰값과 기대도수를 카이제곱함수에 넣어주면 끝나는 거다.

  • scipy에 stats모듈이 있고 여기에 카이제곱이 있다.

  • 첫 번째 파라미터가 관찰된 빈도리스트고 두 번째 파라미터가 기대빈도 리스트다.

     

    빈도로 넣어주셔야 한다. 이게 가장 중요하다. -> (관찰된 빈도 리스트[ ], 기대빈도 리스트[ ])

  • 수원은 카운터 하면 된다. 1이 3개, 2가 2개 즉[3,2] 이렇게 카운터 하면 된다.

    기대빈도리스트. 그러니까 지금 퍼센트(%)로 되어 있는데 실수로 퍼센트(%) 그대로 넣는 분들이 계시거든요. 0.6이 있고 0.4가 있다. 이것을 빈도로 변경해줘야 한다. 그래서 수원의 총 개수를 구하고 5개네요. 5씩 곱해주면 된다. [0.6*5, 0.4*5] 이렇게 리스트를 만들고

     

  • 카이제곱검정에다가 첫 번째 관찰된 빈도리스트 수원값을 넣고, 두 번째 기대빈도 리스트에 부산 데이터를 넣어주면 끝나는 거다.

     ->

    관찰된빈도리스트[수원값], 기대빈도리스트[부산값]

  • 이렇게 실행하면

    검정통계량 값과 p벨류 값을 구할 수 있다.

     

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

안녕하세요:) 질문을 정리해 주셔서 감사합니다.

왜 의문이 갔는지 이해했어요! 문제상황이 없다보니 왜 이렇게 했을까? 하는 의문이 생긴 것 같아요!
답글에 문제 상황을 작성하고 (5번 참고) 노션에도 업데이트해 둘게요!!

 

  1. 수원의 표본 크기(5)를 기준으로 예상되는 빈도값을 계산합니다. (문제에서 주어짐)

  2. 카이제곱 검정에서 ‘관찰값’과 ‘기대값’의 총합은 동일해야 하거든요. 따라서 관찰된 빈도수에 맞춥니다.

  3. 네 맞아요!

  4. 빈도라는 단어가 %는 아니에요! 카테고리별로 몇 건(몇 번) 발생했는지를 의미해요!

  5. 

    [문제]
    수원에서 탕수육 선호도를 조사하기 위해 5명에게 '찍먹'과 '부먹' 중 어느 방식을 선호하는지 물어보았다. 조사 결과, 찍먹 3명, 부먹 2명으로 나타났다.
    한편, 부산 지역에 대한 사전 조사에 따르면, 찍먹 선호도가 60%, 부먹 선호도가 40%로 알려져 있다.


    유의수준 0.05에서, “수원 지역의 탕수육 선호도가 부산 지역의 선호도(60%:40%)와 유의하게 다른지”를 통계적으로 검정하시오.

     

    [가설 설정]

    • 귀무가설(H0): 수원의 찍먹·부먹 선호도는 부산(60% vs 40%)과 동일하다.

    • 대립가설(H1): 수원의 찍먹·부먹 선호도는 부산(60% vs 40%)과 다르다.

 

강민균님의 프로필 이미지
강민균

작성한 질문수

질문하기