강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

wlysh999님의 프로필 이미지
wlysh999

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

8회 기출유형(작업형3)

기출7회 제3유형

해결된 질문

작성

·

19

0

문제 1-2번 관련하여 유의확률 0.05미만인 유의한 변수만을 사용해 다시 로지스티고회귀분석 수행

 

아래 내용에 따르면 독립변수가

intercept

DataUsage

DayMins

총 3개로 보이는데 해설은

DataUsage

DayMins

2개밖에 반영이 안되었네요

 

어떤게 맞는지 확인 부탁드립니다.

Optimization terminated successfully.
         Current function value: 0.393603
         Iterations 6
                           Logit Regression Results                           
==============================================================================
Dep. Variable:                  Churn   No. Observations:                 1000
Model:                          Logit   Df Residuals:                      989
Method:                           MLE   Df Model:                           10
Date:                Sun, 18 May 2025   Pseudo R-squ.:                 0.02367
Time:                        02:52:21   Log-Likelihood:                -393.60
converged:                       True   LL-Null:                       -403.14
Covariance Type:            nonrobust   LLR p-value:                   0.03924
===================================================================================
                      coef    std err          z      P>|z|      [0.025      0.975]
-----------------------------------------------------------------------------------
Intercept          -2.2146      0.913     -2.425      0.015      -4.005      -0.424
AccountWeeks        0.0026      0.002      1.114      0.265      -0.002       0.007
ContractRenewal     0.1603      0.325      0.493      0.622      -0.477       0.798
DataPlan            0.2874      0.198      1.454      0.146      -0.100       0.675
DataUsage          -0.1698      0.072     -2.343      0.019      -0.312      -0.028
CustServCalls       0.1374      0.074      1.858      0.063      -0.008       0.282
DayMins            -0.0036      0.002     -2.092      0.036      -0.007      -0.000
DayCalls            0.0023      0.004      0.526      0.599      -0.006       0.011
MonthlyCharge       0.0042      0.005      0.778      0.436      -0.006       0.015
OverageFee         -0.0127      0.036     -0.352      0.725      -0.084       0.058
RoamMins            0.0098      0.034      0.292      0.770      -0.056       0.076
===================================================================================
8

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

intercept는 독립변수가 아니에요:)

실제로 이 건으로 질문이 많아

실제 시험에서 팝업으로 안내가 나오기도 했는데 변수에서는 제외됩니다.

intercept(절편)

0

안녕하세요, 인프런 AI 인턴입니다. wlysh999님.

질문해주신 “유의확률 0.05 미만인 변수만을 사용하여 로지스틱 회귀 분석을 수행했을 때 어떤 변수가 포함되어야 하는가”에 대한 답변을 드리겠습니다. 일반적으로, 로지스틱 회귀 분석에서 독립변수가 유의한지를 판단하기 위해 p-value를 사용하며, p-value가 0.05보다 작은 변수는 통계적으로 유의하다고 판단되어 모델에 포함하는 것이 일반적입니다.

제공된 회귀 분석 결과로 판단할 때, p-value가 0.05 미만인 변수는 다음과 같습니다:

  1. Intercept: p-value = 0.015
  2. DataUsage: p-value = 0.019
  3. DayMins: p-value = 0.036

따라서, 유의한 변수는 Intercept, DataUsage, DayMins로 총 3개의 변수입니다. 다만, 해설에서 Intercept를 제외하고 DataUsage와 DayMins만 반영했다면, Intercept가 통상적으로 모델에 포함되긴 하지만, 회귀 분석 시 실질적으로 해석하지 않기 때문에 제외한 것일 수 있습니다.

유의미한 변수 선정할 때의 설명을 요약하면, 실제로 예측하는 데에 활용할 변수를 의도적으로 선정하면서 모델을 단순화하는 경우 이러한 요소들을 고려할 수 있습니다. 따라서 모형의 자유도를 높이고 해석 가능한 방향으로 해설이 맞도록 구성했을 수 있습니다.

유사한 주제에 대한 경험과 설명이 필요하다면, 이전에 관련된 내용을 다룬 포스트를 참고하실 수도 있습니다:
- 작업형3 로지스틱 회귀: 로지스틱 회귀에서 변수를 선택하는 방법에 대한 다른 논의가 담겨 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

wlysh999님의 프로필 이미지
wlysh999

작성한 질문수

질문하기