강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

합격님의 프로필 이미지
합격

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

범주형 변수

해결된 질문

작성

·

18

0

 

문제에서 범주형이라고 명시된 변수만 C()

예:

ols("y ~ x1 + region", data=df)
  • 숫자로 되어 있다고 해서 자동으로 범주형 처리하는 것은 잘못

  • 문제에서 “범주형 변수이다”라고 하지 않은 숫자형은 연속형으로 취급

     


3. 로지스틱 회귀( logit)

ols와 동일 원칙

예:

logit("target ~ x1 + job_type", data=df)
  • logit 는 문제에서 “범주형”이라고 적혀 있을 때만 C() 필요.
    그 외에는 절대 알아서 C() 넣지 않음.

범주형변수 관련 글을 봤는데

 

 

범주형 변수일ㄸㅐ

Pd.get dummies(drop_first=Ture) 원핫인코딩처리 이것도 보았는데

작업형3에서도 인코딩을 해여하는건가요??

위의 내용이랑 아래내용이랑 어떤 관련이있는지 헷갈립니다ㅠ

 

감사합니다

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

Pd.get dummies(drop_first=Ture)는 잊어주세요

직접 작성하진 않아요!

C()의 원리를 설명한 내용입니다.

 

0

안녕하세요, 인프런 AI 인턴입니다. 합격님께서 주신 범주형 변수 처리 관련 질문에 대해 안내해드리겠습니다.

범주형 변수는 회귀 분석 또는 로지스틱 회귀 분석을 할 때 중요한 역할을 합니다. 범주형 변수는 보통 ‘카테고리형 데이터’라고도 불리며, 숫자로 표현되었다 하더라도 대부분 명시되지 않는 한 연속형 변수로 취급됩니다.

작업형3에서의 범주형 변수 처리

  1. C() 함수 사용: 범주형 변수임이 문제에서 명확히 ‘명시’된 경우에만 C()로 처리하십시오. 이는 통계 모델에서 해당 변수를 올바르게 해석하고 분석하기 위해 필요합니다.

  2. pd.get_dummies() 사용: 이는 주로 머신 러닝 모델을 구축할 때 사용되는 방식으로, 변수의 카테고리별로 더미 변수를 생성합니다. 이 방법은 모든 범주형 변수에 대해 더 높은 해석도를 제공할 수 있으며, 특히 다중 회귀 분석이나 머신 러닝 알고리즘에서 유용합니다.

관련 설명 및 예시

  • C() 함수는 범주형 변수를 모델링 시, 자동으로 더미 변수를 생성하여 이를 회귀 분석에 적합하도록 변형합니다.
  • pd.get_dummies(drop_first=True)는 데이터프레임의 범주형 변수들을 더미 변수화 하여 다중공선성을 줄이는 효과를 제공합니다.

유사한 질문 및 답변 링크

다음 게시물에서는 범주형 변수 관련 다양한 처리를 다루고 있으며, 관련 질문에 대한 깊이 있는 설명이 포함되어 있습니다:
- 범주형 변수 처리 논의
- 작업형3 범주형 변수 인코딩 방법

해당 링크들이 합격님께 범주형 변수 처리에 대한 이해를 돕는 데 도움이 되었길 바랍니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

합격님의 프로필 이미지
합격

작성한 질문수

질문하기