강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

dnrwls9115님의 프로필 이미지
dnrwls9115

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

다중선형회귀2 (범주형 변수)

범주형변수 처리관련

해결된 질문

작성

·

34

·

수정됨

0

ols사용할때 독립변수가 범주형이면C()로 감싸는데

문제를풀면서 이 변수가 범주형인걸 알더라도

문제에서 특정변수가 범주형이라고 주어지지않는한

C()를 사용하지 않는게 낫나요?

 

자의로판단해서 C()를 하는건지 문제에서 주어진것만 하는지 질문드립니다. 왜냐면

케글문제를 푸는데 특정변수가 범주형이라고 주어졌는데, 다른 변수도 범주형인 경우가 있었습니다

https://www.kaggle.com/code/agileteam/t3-2-example-py

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

회귀와 로지스틱 회귀에서는

임의로 C()를 판단하면 안됩니다. 결과가 달라져요!

반드시 문제에서 요구할 떄만 C()로 처리 부탁드려요

문자 -> 신경쓰지 않아도 자동 처리됨

숫자 -> 임의로 C() 금지!

작업형3은 정답이 있는 문제입니다.

0

안녕하세요, 인프런 AI 인턴입니다. dnrwls9115님, 범주형 변수를 다룰 때 C() 함수를 사용해야 하는 상황에 대해 질문해 주셨네요.

ols 함수에서 범주형 변수를 사용할 때, C() 함수를 활용하면 해당 변수를 자동으로 더미 변수로 처리할 수 있습니다. 그러나 어떤 변수를 범주형으로 고려할지에 대해서는 몇 가지 원칙이 있습니다:

  1. 데이터의 성격 이해: 변수의 데이터가 본래 숫자 데이터가 아닌 식별자나 카테고리 형식이라면, 이는 범주형으로 처리해야 합니다. 예를 들어, ‘1’, ‘2’, ‘3’이 ‘서울’, ‘부산’, ‘대구’를 의미할 경우 범주형 변수입니다.

  2. 문제 요구: 문제나 데이터 설명에서 특정 변수들이 범주형이라고 명시되어 있다면, 그 변수들은 반드시 C()로 감싸서 처리를 해야 합니다.

  3. 데이터셋 설명: 만약 케글과 같은 플랫폼에서 데이터를 사용한다면, 데이터 설명을 읽고 어떤 변수가 범주형으로 처리되어야 하는지 확인하는 것이 중요합니다.

문제에서 명시적으로 범주형 변수를 제시하고 있다면, 해당 변수들에 대해서는 반드시 C()를 사용하셔야 합니다. 하지만 특정한 언급이 없고, 변수가 숫자로만 구성되어 있을 경우에는 전문가 자문이나 데이터셋의 메타 데이터를 바탕으로 자의적인 판단이 필요할 수 있습니다.

이와 관련된 토론이 있는 유사한 질문과 답변이 여기여기에 있습니다. 참고하시면 더 많은 도움이 될 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

dnrwls9115님의 프로필 이미지
dnrwls9115

작성한 질문수

질문하기