강의

멘토링

커뮤니티

BEST
데이터 사이언스

/

데이터 사이언스 자격증

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

비전공자, 입문자가 빅데이터 분석기사 실기를 빠르게 취득할 수 있도록 안내해드려요! 이론은 가볍게, 실전은 확실하게 복잡한 배경지식 없이도, 기출문제를 중심으로 시험에 꼭 나오는 포인트만 집중 학습합니다.

(4.9) 수강평 768개

수강생 4,974명

난이도 입문

수강기한 12개월

  • 퇴근후딴짓
새소식 목록
관리
작성

작업형 3 자주 묻는 질문: C()를 언제 쓰는가?

1. ANOVA / 이원분산분석 / 일원분산분석

→ 범주형 요인은 C() 사용이 정석

예:

model = ols("y ~ C(group)", data=df).fit()
anova_lm(model)
  • ANOVA는 애초에 “집단 간 평균 차이”를 비교하는 분석 → 요인이 범주형.

  • 따라서 문제에서 말로 “범주형”이라고 안 써줘도,

  • 요인 자체가 그룹 변수이므로 C()가 기본값입니다.

즉,
숫자로 되어 있어도 → C()
문자로 되어 있어도 → C()


2. 회귀분석 (ols)

문제에서 범주형이라고 명시된 변수만 C()

예:

ols("y ~ x1 + region", data=df)
  • 숫자로 되어 있다고 해서 자동으로 범주형 처리하는 것은 잘못

  • 문제에서 “범주형 변수이다”라고 하지 않은 숫자형은 연속형으로 취급

     


3. 로지스틱 회귀( logit)

ols와 동일 원칙

예:

logit("target ~ x1 + job_type", data=df)
  • logit 는 문제에서 “범주형”이라고 적혀 있을 때만 C() 필요.
    그 외에는 절대 알아서 C() 넣지 않음.

댓글