Inflearn brand logo image

인프런 커뮤니티 질문&답변

Bella Ciao님의 프로필 이미지
Bella Ciao

작성한 질문수

[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !

6회 작업형3 문제1

빅분기 실기 시험 6회 기출 유형, 작업형3

작성

·

62

1

chi2_contingency 로 푸셨는데 이게 맞는가요?

chisquare는 적합도 검정이라 단일 표본의 관찰 빈도가 기대 빈도와 일치하는지 볼 때 주로 쓰고,

chi2_contingency는 두 개 이상의 범주형 변수가 서로 관련이 있는지, 즉 두 변수 간의 독립성을 검정할 때 사용하므로 chisquare가 맞는 거 같은데요

답변 3

0

3회 작업형2 문제1

마지막 평가시

accuracy_score(y_hat,y_train)

으로 강의 올라와 있는데

마지막 accuracy_score(y_train,y_hat)

으로 바뀌어야 하는거아닌가요?

코딩 대한민국님의 프로필 이미지
코딩 대한민국
지식공유자

순서가 바뀌어도 accuracy는 동일한 결과가 나오지만

sklearn 함수들은 항상 (실제값, 예측값) 순서로 사용해야 합니다.

(실제값, 예측값) 순서로 외워주세요.

이 영상도 수정해두겠습니다.

감사합니다.

0

코딩 대한민국님의 프로필 이미지
코딩 대한민국
지식공유자

정확한 지적입니다!

주어진 문제는 적합도 검정이므로 scipy.stats.chisquare를 사용해야 합니다.

chi2_contingency: 독립성 검정용 (두 변수 간의 관계 검정)

chisquare: 적합도 검정용 (단일 변수의 관찰값 vs 기댓값)

카이제곱 검정에는 빈도가 필요합니다. 그러므로 다음과 같이

chi2_contingency → chisquare: 적합도 검정에 맞는 함수를 사용해야합니다.

영상은 내일 수정해놓도록 하겠습니다. 감사합니다.

수정된 답안은 다음과 같습니다.

 

import numpy as np

from scipy.stats import chisquare

# 관찰된 값 (진통제 데이터)

o = [4, 4, 3, 4, 1, 4, 4, 1, 4, 4, 2, 1, 4, 2, 3, 2, 2, 4, 4, 4]

# 관찰된 빈도 계산 (1:두통, 2:메스꺼움, 3:어지러움, 4:무증상)

observed_freq = [o.count(i) for i in range(1, 5)]

# 기대 빈도 계산 (항히스타민제 기준: 10%, 5%, 15%, 70%)

expected_freq = [len(o) * p for p in [0.1, 0.05, 0.15, 0.7]]

# 카이제곱 적합도 검정

, p = chisquare(observedfreq, expected_freq)

print(p)

0

안녕하세요, 인프런 AI 인턴입니다. Bella Ciao님께서 작업형 문제에서 적절한 통계 검정을 선택하셨는지에 대한 질문을 주셨습니다.

Chi-square 테스트 종류와 사용 시나리오

  1. Chisquare Test (적합도 검정):

    • 단일 범주형 변수의 관찰 빈도가 특정(expected) 빈도와 일치하는지 검정할 때 사용됩니다.
    • 주로 하나의 샘플 분포가 기대하는 분포와 다른지를 확인합니다.
  2. Chi-square Test of Independence (chi2_contingency, 독립성 검정):

    • 두 개 이상의 범주형 변수 간의 독립성을 검정합니다.
    • 두 변수 간에 상관 관계가 없다는 귀무가설을 검정할 때 사용됩니다.

귀하의 경우

  • chi2_contingency는 두 개의 범주형 변수 간의 관계를 확인하는데 적합합니다. 만약 문제가 두 변수 간의 상관 관계를 묻고 있다면, chi2_contingency가 올바른 선택이 될 수 있습니다.
  • 한편, 단일 변수의 관찰 빈도를 기대값과 비교하는 경우라면, chisquare를 사용하는 것이 정확합니다.

따라서 질문에서 언급된 내용에 따라 적절한 테스트를 선택해야 합니다. 문제 유형과 지시문이 명확하지 않을 수 있습니다; 구체적인 데이터의 형태와 질의를 확인한 후 올바른 검정을 선택하시길 바랍니다.

추가적으로, 문제에 대한 유사한 질문이 아래 링크에 있습니다:
- ch2_contingency와 chisquare의 차이점 이해하기

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

Bella Ciao님의 프로필 이미지
Bella Ciao

작성한 질문수

질문하기