강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

youmny910님의 프로필 이미지
youmny910

작성한 질문수

[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !

8회 작업형3 문제2

섹션7-8회 관련 질문

작성

·

41

0

안녕하세요 강의 잘 듣고 있습니다
8회 문제 풀이 중 관련 질문 드립니다

  1. 작업형1_문제1
    1-2 에서 '피 소비량이 3번째로 많은 도시('city')의 커피 소비량을 구할 때, 'city' 가 같은 데이터가 있는데 city 별로 groupby 할 필요는 없을까요?

  2. 작업형1_문제2
    x = 전자 생산 비율이 세번째로 높은 국가의 전자 생산으로 문제에서는 정의되어있는데
    인데 강의에서는 x를 전자생산비율로 계산하는데, 어떤 수치를 확인하는게 맞는지 확인 부탁드립니다

  3. 작업형3_문제1
    강의의 풀이방식과는 조금 다르게 아래와 같이 문제를 풀어서 p-value 값을 구했습니다
    pvalue 값은 조금 다른데 이렇게 해도 동일하다고 봐도 될까요?

     

from statsmodels.formula.api import logit
model2 = logit("Resign ~ Age + YearsAtCompany + MonthlyIncome + JobSatisfaction + Overtime", data=df)
data2 = model2.fit()
data2.summary()
  1. 작업형3_문제2
    다중 선형 회귀분석 수행을 위해 상수항을 추가하는 이유가 궁금합니다

답변 부탁드립니다.

감사합니다!

답변 1

0

코딩 대한민국님의 프로필 이미지
코딩 대한민국
지식공유자

네 ~ 질문 감사합니다. 답변드리겠습니다.  

1. 작업형1_문제1 1-2번 답변

좋은 질문입니다! 실제 시험에서는 주어진 데이터의 특성을 파악하는 것이 중요합니다. 이 문제의 경우 데이터를 생성할 때 random.choices로 만들었기 때문에 같은 도시가 여러 번 나타날 수 있습니다.

정확한 풀이를 위해서는 groupby를 사용하는 것이 맞지만, 실제 시험에서는 데이터를 확인하고 중복이 없다면 현재 방식으로도 충분합니다. 두 방법 모두 알아두시면 좋겠습니다.

2. 작업형1_문제2 x값 정의

강의에서 제가 설명을 명확하게 하지 못한 부분이네요. 문제에서 x는 "전자 생산 비율이 세 번째로 높은 국가의 전자 생산량"으로 정의되어 있습니다. 따라서 정확한 답은 해당 국가의 'Elec' 값을 사용하는 것이 맞습니다. 강의에서 혼동을 드려 죄송합니다.

3. 작업형3_문제1 formula API 사용

네, 매우 좋은 접근입니다! statsmodels는 두 가지 방식을 모두 지원합니다:

  • 배열 기반 인터페이스 (강의 방식)

  • formula 기반 인터페이스 (질문자님 방식)

두 방법 모두 정답이며, formula 방식이 더 직관적일 수 있습니다. 실제 시험에서는 본인에게 편한 방식을 사용하시면 됩니다.

4. 작업형3_문제2 상수항 추가

회귀분석에서 상수항(절편)은 매우 중요한 역할을 합니다. 상수항이 없으면 모든 독립변수가 0일 때 종속변수도 반드시 0이 되어야 하는데, 이는 현실적이지 않습니다.

statsmodels에서 sm.add_constant()를 사용하거나 formula API를 사용하면 자동으로 추가됩니다. 실제 시험에서는 특별한 언급이 없는 한 상수항을 포함하여 분석하시기 바랍니다.

또 언제든 질문해주세요. 감사합니다.

youmny910님의 프로필 이미지
youmny910

작성한 질문수

질문하기