작성
·
41
0
안녕하세요 강의 잘 듣고 있습니다
8회 문제 풀이 중 관련 질문 드립니다
작업형1_문제1
1-2 에서 '피 소비량이 3번째로 많은 도시('city')의 커피 소비량을 구할 때, 'city' 가 같은 데이터가 있는데 city 별로 groupby 할 필요는 없을까요?
작업형1_문제2
x = 전자 생산 비율이 세번째로 높은 국가의 전자 생산량 으로 문제에서는 정의되어있는데
인데 강의에서는 x를 전자생산비율로 계산하는데, 어떤 수치를 확인하는게 맞는지 확인 부탁드립니다
작업형3_문제1
강의의 풀이방식과는 조금 다르게 아래와 같이 문제를 풀어서 p-value 값을 구했습니다
pvalue 값은 조금 다른데 이렇게 해도 동일하다고 봐도 될까요?
from statsmodels.formula.api import logit
model2 = logit("Resign ~ Age + YearsAtCompany + MonthlyIncome + JobSatisfaction + Overtime", data=df)
data2 = model2.fit()
data2.summary()
작업형3_문제2
다중 선형 회귀분석 수행을 위해 상수항을 추가하는 이유가 궁금합니다
답변 부탁드립니다.
감사합니다!
답변 1
0
네 ~ 질문 감사합니다. 답변드리겠습니다.
좋은 질문입니다! 실제 시험에서는 주어진 데이터의 특성을 파악하는 것이 중요합니다. 이 문제의 경우 데이터를 생성할 때 random.choices로 만들었기 때문에 같은 도시가 여러 번 나타날 수 있습니다.
정확한 풀이를 위해서는 groupby를 사용하는 것이 맞지만, 실제 시험에서는 데이터를 확인하고 중복이 없다면 현재 방식으로도 충분합니다. 두 방법 모두 알아두시면 좋겠습니다.
강의에서 제가 설명을 명확하게 하지 못한 부분이네요. 문제에서 x는 "전자 생산 비율이 세 번째로 높은 국가의 전자 생산량"으로 정의되어 있습니다. 따라서 정확한 답은 해당 국가의 'Elec' 값을 사용하는 것이 맞습니다. 강의에서 혼동을 드려 죄송합니다.
네, 매우 좋은 접근입니다! statsmodels는 두 가지 방식을 모두 지원합니다:
배열 기반 인터페이스 (강의 방식)
formula 기반 인터페이스 (질문자님 방식)
두 방법 모두 정답이며, formula 방식이 더 직관적일 수 있습니다. 실제 시험에서는 본인에게 편한 방식을 사용하시면 됩니다.
회귀분석에서 상수항(절편)은 매우 중요한 역할을 합니다. 상수항이 없으면 모든 독립변수가 0일 때 종속변수도 반드시 0이 되어야 하는데, 이는 현실적이지 않습니다.
statsmodels에서 sm.add_constant()
를 사용하거나 formula API를 사용하면 자동으로 추가됩니다. 실제 시험에서는 특별한 언급이 없는 한 상수항을 포함하여 분석하시기 바랍니다.
또 언제든 질문해주세요. 감사합니다.