inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

다중선형회귀2 (범주형 변수)

회귀분석 및 분산분석 범주형 변수 처리 문의

해결된 질문

676

moya0915

작성한 질문수 6

1

하지만 분산분석은 ols 사용시 독립변수가 범주형 변수이면 C처리를 해줘야하는데 이렇게 구분해서 사용하면 되는건가요?

 

같은 ols함수인데 회귀분석이냐 분산분석이냐에 따라 사용법이 조금 달라 헷갈려서 확인차 문의드립니다.

 

추가로, 시험환경예시 작업형 유형3 에서는 회귀분석에서 Logit 모형을 사용하는데 범주형 변수를 C처리 했는데 그냥 모두 범주형 변수는 C처리 해주는게 나을까요..?ㅠ

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

1

퇴근후딴짓

수치형이면서 범주형인 값에 'C()' 함수를 사용하는 것은 해당 변수를 범주형으로 명시적으로 처리하도록 모델에게 지시하는 것입니다. 예를 들어, '1', '2', '3'과 같은 수치가 실제로는 '소형', '중형', '대형'과 같은 범주를 나타내는 경우에 해당합니다.

 

작업형2를 예를 들어 모델을 만들 때 범주형 변수가있다면 인코딩처리를 했었어요!

작업형3에서 사용하는 ols(회귀), logit(로지스틱회귀)는 범주형 변수가 있다면 자동으로 이를 (원핫인코딩)처리 해줍니다. 하지만 여전히 숫자일 인 범주형 변수 그러니깐 소형, 중형으로 작성된 것이 아니라 1, 2로 작성된 변수만 별도 범주형 변수로 인식시켜줘야 해요

이때 C()를 사용합니다.

분산분석에서는 독립변수가 범주형 변수이니 숫자만 C()로 묶어도 되고, 습관적으로 독립변수 모두를 각각 C()로 묶어도 됩니다.

 

그 동안 작업형2에서는 범주형 변수가 숫자더라도 그냥 나뒀습니다. 레이블 인코딩과 별반 다를 것이 없어서요! 그런데 작업형3은 p값 등의 정답이 있는 문제여서 정확하게 처리할 필요가 있어요

1

moya0915

알려주셔서 감사합니다! 한번에 정리가 되었어요!ㅎㅎ

간단하게 생각하면 ols(회귀), logit(로지스틱회귀) 는 수치형 변수인데 범주형 변수로 사용되는 것들만 C()를 사용하고

분산분석에서는 모두 C를 묶어도 가능하다는 말씀이네요!ㅎㅎ 감사합니다.

0

퇴근후딴짓

네!! 맞아요

시험 잘 보고 오세요 :)

출력값 질문

0

9

1

수업노트가 어디에 있나요?

0

19

1

실기시험 제출관련

0

152

2

6.20 작업형 2 과적합

0

157

3

코딩팡 장업형2 베이스 라인 인코딩 종류 질문

0

49

2

로지스틱회귀, 회귀

0

48

2

회귀 문제를 풀때 질문입니다.

0

55

1

불균형 처리 후 성능이 더 낮아졌다면,

0

61

2

실기 체험 제2유형 에러 문의

0

61

1

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

50

2

3번문제 등분산 가정

0

48

2

작업형3 target 형 변환 질문

0

35

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

36

3

원핫인코딩과 레이블 인코딩에서 concat

0

59

2

제2유형 질문입니다.

0

46

2

C()

0

44

2

작업형 2에서 strafity 적용 유무

0

52

2

수강 기간 연장 가능 여부 문의드립니다.

0

61

1

ols

0

43

2

2유형 작성관련 질문(일반 심화)

0

39

2

2유형 작성관련 질문

0

41

2

2유형 object컬럼 개수 다르면

0

48

2

코딩팡질문이요ㅠㅠ

0

45

2

관찰값과 기대값의 개념이 헷갈립니다.

0

25

2