• 카테고리

    질문 & 답변
  • 세부 분야

    자격증 (데이터 사이언스)

  • 해결 여부

    해결됨

문자열 처리에 관한 질문

24.06.15 09:58 작성 조회수 69

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

     

  • 강의 내용 6분 40초와 관련이 있습니다. 제가 2번 문제를 풀다가 Gender 부분을 C(Gender) 처리를 하지 않고 풀었는데 강의를 다시 보다 보니 문자열 처리를 해주는 것을 알았습니다. 근데 문자열 처리 유무와 상관없이 값이 전부 동일한 것을 보고 이렇게 질문을 드립니다. 회귀분석에서 ols가 범주형 변수가 있어도 C() 처리를 안해줘도 된다고 하셨는데 로지스틱 회귀 분석에서도 동일한지 여쭤보고 싶습니다. 왜 결과값이 문자열 처리에 상관없이 동일하게 나오는 건가요?

     

    감사합니다.

     

답변 1

답변을 작성해보세요.

0

문자열 처리 유무와 상관없이 값이 전부 동일한 것을 보고 이렇게 질문을 드립니다

ols와 logit() 둘 다 자동처리 됩니다.

  • 범주형 변수가 문자열일 경우:

    • statsmodels는 범주형 변수가 문자열인 경우 이를 자동으로 인식하고 원핫 인코딩을 수행합니다.

    • 이때 C()를 사용하지 않더라도 결과가 동일하게 나옵니다.

  • 범주형 변수가 숫자로 표현된 경우:

    • statsmodels는 숫자로 표현된 변수를 기본적으로 연속형 변수로 간주합니다.

    • 이 경우 C()를 사용하지 않으면 범주형 변수가 아닌 연속형 변수로 처리되어 회귀 분석 결과가 달라질 수 있습니다.

감사합니다.

채널톡 아이콘