인프런 커뮤니티 질문&답변
범주형 변수
해결된 질문
작성
·
18
0
문제에서 범주형이라고 명시된 변수만 C()
예:
ols("y ~ x1 + region", data=df)
숫자로 되어 있다고 해서 자동으로 범주형 처리하는 것은 잘못
문제에서 “범주형 변수이다”라고 하지 않은 숫자형은 연속형으로 취급
❌3. 로지스틱 회귀( logit)
➡ols와 동일 원칙
예:
logit("target ~ x1 + job_type", data=df)
logit 는 문제에서 “범주형”이라고 적혀 있을 때만 C() 필요.
그 외에는 절대 알아서 C() 넣지 않음.
범주형변수 관련 글을 봤는데
범주형 변수일ㄸㅐ
Pd.get dummies(drop_first=Ture) 원핫인코딩처리 이것도 보았는데
작업형3에서도 인코딩을 해여하는건가요??
위의 내용이랑 아래내용이랑 어떤 관련이있는지 헷갈립니다ㅠ
감사합니다
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다. 합격님께서 주신 범주형 변수 처리 관련 질문에 대해 안내해드리겠습니다.
범주형 변수는 회귀 분석 또는 로지스틱 회귀 분석을 할 때 중요한 역할을 합니다. 범주형 변수는 보통 ‘카테고리형 데이터’라고도 불리며, 숫자로 표현되었다 하더라도 대부분 명시되지 않는 한 연속형 변수로 취급됩니다.
작업형3에서의 범주형 변수 처리
C() 함수 사용: 범주형 변수임이 문제에서 명확히 ‘명시’된 경우에만
C()로 처리하십시오. 이는 통계 모델에서 해당 변수를 올바르게 해석하고 분석하기 위해 필요합니다.pd.get_dummies() 사용: 이는 주로 머신 러닝 모델을 구축할 때 사용되는 방식으로, 변수의 카테고리별로 더미 변수를 생성합니다. 이 방법은 모든 범주형 변수에 대해 더 높은 해석도를 제공할 수 있으며, 특히 다중 회귀 분석이나 머신 러닝 알고리즘에서 유용합니다.
관련 설명 및 예시
C()함수는 범주형 변수를 모델링 시, 자동으로 더미 변수를 생성하여 이를 회귀 분석에 적합하도록 변형합니다.
pd.get_dummies(drop_first=True)는 데이터프레임의 범주형 변수들을 더미 변수화 하여 다중공선성을 줄이는 효과를 제공합니다.
유사한 질문 및 답변 링크
다음 게시물에서는 범주형 변수 관련 다양한 처리를 다루고 있으며, 관련 질문에 대한 깊이 있는 설명이 포함되어 있습니다:
- 범주형 변수 처리 논의
- 작업형3 범주형 변수 인코딩 방법
해당 링크들이 합격님께 범주형 변수 처리에 대한 이해를 돕는 데 도움이 되었길 바랍니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





