섹션7-8회 관련 질문

Question

안녕하세요 강의 잘 듣고 있습니다 8회 문제 풀이 중 관련 질문 드립니다 작업형1_문제1 1-2 에서 '피 소비량이 3번째로 많은 도시('city')의 커피 소비량을 구할 때, 'city' 가 같은 데이터가 있는데 city 별로 groupby 할 필요는 없을까요? 작업형1_문제2 x = 전자 생산 비율이 세번째로 높은 국가의 전자 생산 량 으로 문제에서는 정의되어있는데 인데 강의에서는 x를 전자생산 비율 로 계산하는데, 어떤 수치를 확인하는게 맞는지 확인 부탁드립니다 작업형3_문제1 강의의 풀이방식과는 조금 다르게 아래와 같이 문제를 풀어서 p-value 값을 구했습니다 pvalue 값은 조금 다른데 이렇게 해도 동일하다고 봐도 될까요? from statsmodels.formula.api import logit model2 = logit("Resign ~ Age + YearsAtCompany + MonthlyIncome + JobSatisfaction + Overtime", data=df) data2 = model2.fit() data2.summary() 작업형3_문제2 다중 선형 회귀분석 수행을 위해 상수항을 추가하는 이유가 궁금합니다 답변 부탁드립니다. 감사합니다!

코딩 대한민국 · Answer

네 ~ 질문 감사합니다. 답변드리겠습니다. 1. 작업형1_문제1 1-2번 답변 좋은 질문입니다! 실제 시험에서는 주어진 데이터의 특성을 파악하는 것이 중요합니다. 이 문제의 경우 데이터를 생성할 때 random.choices로 만들었기 때문에 같은 도시가 여러 번 나타날 수 있습니다. 정확한 풀이를 위해서는 groupby를 사용하는 것이 맞지만, 실제 시험에서는 데이터를 확인하고 중복이 없다면 현재 방식으로도 충분합니다. 두 방법 모두 알아두시면 좋겠습니다. 2. 작업형1_문제2 x값 정의 강의에서 제가 설명을 명확하게 하지 못한 부분이네요. 문제에서 x는 "전자 생산 비율이 세 번째로 높은 국가의 전자 생산량"으로 정의되어 있습니다. 따라서 정확한 답은 해당 국가의 'Elec' 값을 사용하는 것이 맞습니다. 강의에서 혼동을 드려 죄송합니다. 3. 작업형3_문제1 formula API 사용 네, 매우 좋은 접근입니다! statsmodels는 두 가지 방식을 모두 지원합니다: 배열 기반 인터페이스 (강의 방식) formula 기반 인터페이스 (질문자님 방식) 두 방법 모두 정답이며, formula 방식이 더 직관적일 수 있습니다. 실제 시험에서는 본인에게 편한 방식을 사용하시면 됩니다. 4. 작업형3_문제2 상수항 추가 회귀분석에서 상수항(절편)은 매우 중요한 역할을 합니다. 상수항이 없으면 모든 독립변수가 0일 때 종속변수도 반드시 0이 되어야 하는데, 이는 현실적이지 않습니다. statsmodels에서 sm.add_constant() 를 사용하거나 formula API를 사용하면 자동으로 추가됩니다. 실제 시험에서는 특별한 언급이 없는 한 상수항을 포함하여 분석하시기 바랍니다. 또 언제든 질문해주세요. 감사합니다.