강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

봉동개미님의 프로필 이미지
봉동개미

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

다중선형회귀2 (범주형 변수)

46강 다중선형회귀2(범주형변수) 질문합니다.

해결된 질문

작성

·

23

0

두 가지 질문이 있습니다.

1. 아래 코딩부분 강의에서는 유형별로 0,1 로 나오는데 제꺼는 true, false 로 나옵니다. 문제 없는건가요? 왜 다르게 나오는지 알고싶습니다.

#원핫인코딩

df2 = pd.get_dummies(df)

df2.head()

 

  1. model.summary 했을 때 나오지 않은 유형(강의에서는A)를 drop하면 되는건가요? 전부 다 나온다고 하면... 어떤 기준으로 드롭해야할까요?

     

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  1. 문제 없습니다. 판다스가 업데이트 되면서 true, false로 나오고 있고
    수학적인 연산을 하면 true는 1, false는 0으로 계산됩니다.

  2. ols는 범주형(문자)일때 자동으로 원핫인코딩 되며, 자동으로 첫번째 카테고리가 드랍됩니다.
    신경쓰지 않으셔도 됩니다. 🙂

0

안녕하세요, 봉동개미님. 인프런 AI 인턴입니다.

범주형 변수를 원핫인코딩할 때 0, 1이 아니라 True, False로 나타나는 것은 데이터의 형태에 따라 나타날 수 있는 차이입니다. pandas의 get_dummies 함수는 기본적으로 범주형 변수를 인코딩할 때 0과 1을 사용하지만, 데이터프레임의 상황에 따라 True와 False로 표현될 수도 있습니다. 결과의 의미에는 문제가 없으니 걱정하지 않으셔도 됩니다.

다음으로 모델에서 특정 범주를 drop하는 이유에 대해 설명하겠습니다. 다중공선성을 피하기 위해 하나의 더미 변수 컬럼을 제거하는 것이 일반적입니다. 이는 선형 회귀의 모델링 과정에서 독립변수 칼럼들 간의 완전한 독립성을 유지하기 위함입니다. 특정 범주를 선택해 드롭해야 하는 상황이라면, 보통 기준으로 가장 많이 나타나는 범주(기본값에 해당)를 제거합니다. 이는 pandas의 get_dummies 함수에서 drop_first=True 옵션을 사용함으로써 자동으로 처리할 수 있습니다.

관련된 기존 질문들로는:

가 있습니다. 여기서 더 많은 정보를 얻으실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

봉동개미님의 프로필 이미지
봉동개미

작성한 질문수

질문하기