인프런 커뮤니티 질문&답변

합격

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

섹션 18 퀴즈

잔차이탈도

작성

수정됨

# 방법1

from statsmodels.formula.api import logit

# 1) 로지스틱 회귀 모델 생성 및 학습

model = logit("gender ~ age + length + diameter + height + weight", data=train).fit()

print(model.summary())

# 2) 잔차 이탈도 계산

print(round(-2 * model.llf,2))

# 방법2

from statsmodels.formula.api import glm

import statsmodels.api as sm

# 1) glm 모델 적합 (로지스틱 회귀를 위해 이항 분포 사용)

formula = "gender ~ age + length + diameter + height + weight"

model = glm(formula, data=train, family=sm.families.Binomial()).fit()

# 2) 잔차이탈도 계산

print(model.summary())

print(round(model.deviance,2))

중에서 방법1을 써도 괜찮나요?

차이점이 궁금합니다

방법1 에서

-2 * model.llf,2 이건 무슨 뜻이죠?

llf가 어떤 것인가요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 3

퇴근후딴짓

지식공유자

llf는 summary()에서도
log-likelihood로 나오니 혹시 문제에서 로그 우도 묻는다면 찾아서 작성해주세요

퇴근후딴짓

지식공유자

네 1로 풀이 하는 방법이 있고 더 간단하게는 2로 풀이 하는 방법이 있습니다.

결과는 같으니 코딩이 쉬운 쪽을 택하시죠!!

-2 * model.llf는 로그 우도(log-likelihood)를 이탈도로 변환하는 수식입니다.

화이팅!!

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

합격님께서 질문하신 내용은 로지스틱 회귀 분석을 수행할 때 logit과 glm 함수를 사용하는 방법과 그 차이에 대한 것입니다. 아래에 두 방법의 차이점과 각 요소에 대한 설명을 드리겠습니다.

방법1: `logit` 함수 사용

logit 함수는 주로 이항 로지스틱 회귀 모델을 생성할 때 사용합니다. logit 모델에서 사용된 model.llf는 모델의 로그우도(log-Likelihood)를 나타냅니다. 다음과 같이 계산됩니다:
- 로그우도(log-Likelihood, llf): 모델이 주어진 데이터를 얼마나 잘 설명하는지를 나타내는 지표로, 값이 클수록 모델이 데이터를 잘 설명한다고 평가됩니다.
- 잔차이탈도(residual deviance): -2 * model.llf를 통해 계산하고, 이는 모델 적합의 품질을 측정하는 통계량입니다. 방향성에 있어서 잔차이탈도가 낮을수록 모델이 데이터를 잘 설명하고 있다고 간주됩니다.

방법2: `glm` 함수 사용

glm 함수는 일반화 선형 모델을 적합할 때 사용되며, 이항 반응 변수에 대해 로지스틱 회귀를 수행할 때 Binomial 가족을 설정합니다.
- 잔차이탈도(deviance): model.deviance를 통해 직접적으로 얻을 수 있습니다. 이는 logit시의 잔차이탈도를 유사하게 모델의 설명력을 판단하는 지표로 사용됩니다.

차이점

logit은 주로 로지스틱 회귀에 초점이 맞추어져 있고 빠르게 수행하려는 경우에 적절합니다.
glm은 다양한 종류의 선형 모델을 다룰 수 있어 유연성이 있습니다. 계산 과정에서 다루는 방법이 조금 다를 뿐, 계산 결과로 나오는 로그 우도와 잔차이탈도는 같을 수 있습니다.

추천: logit은 빠르고 로지스틱 회귀 자체에 특화되어 있으므로, 이항 로지스틱 회귀만을 다룰 때 편리합니다. 반면 glm은 다른 분포형 가족을 사용할 필요가 있거나 다양한 모델을 시도할 경우 유리합니다.

관련된 유사한 질문에 대한 추가 정보는 아래 링크를 참고하세요:

섹션 16-3 7회 기출 유형 작업형3 문제1-2에서 glm 대신 logit을 사용해도 되나요? - glm과 logit의 차이에 대한 보다 자세한 논의를 볼 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

합격

작성한 질문수

전체 Q&A

질문하기

인프런 커뮤니티 질문&답변

잔차이탈도

방법1: logit 함수 사용

방법2: glm 함수 사용

차이점

방법1: `logit` 함수 사용

방법2: `glm` 함수 사용