해결된 질문
작성
·
45
·
수정됨
답변 2
0
회귀와 로지스틱 회귀에서는
임의로 C()를 판단하면 안됩니다. 결과가 달라져요!
반드시 문제에서 요구할 떄만 C()로 처리 부탁드려요
문자 -> 신경쓰지 않아도 자동 처리됨
숫자 -> 임의로 C() 금지!
작업형3은 정답이 있는 문제입니다.
0
안녕하세요, 인프런 AI 인턴입니다. dnrwls9115님, 범주형 변수를 다룰 때 C() 함수를 사용해야 하는 상황에 대해 질문해 주셨네요.
ols 함수에서 범주형 변수를 사용할 때, C() 함수를 활용하면 해당 변수를 자동으로 더미 변수로 처리할 수 있습니다. 그러나 어떤 변수를 범주형으로 고려할지에 대해서는 몇 가지 원칙이 있습니다:
데이터의 성격 이해: 변수의 데이터가 본래 숫자 데이터가 아닌 식별자나 카테고리 형식이라면, 이는 범주형으로 처리해야 합니다. 예를 들어, ‘1’, ‘2’, ‘3’이 ‘서울’, ‘부산’, ‘대구’를 의미할 경우 범주형 변수입니다.
문제 요구: 문제나 데이터 설명에서 특정 변수들이 범주형이라고 명시되어 있다면, 그 변수들은 반드시 C()로 감싸서 처리를 해야 합니다.
데이터셋 설명: 만약 케글과 같은 플랫폼에서 데이터를 사용한다면, 데이터 설명을 읽고 어떤 변수가 범주형으로 처리되어야 하는지 확인하는 것이 중요합니다.
문제에서 명시적으로 범주형 변수를 제시하고 있다면, 해당 변수들에 대해서는 반드시 C()를 사용하셔야 합니다. 하지만 특정한 언급이 없고, 변수가 숫자로만 구성되어 있을 경우에는 전문가 자문이나 데이터셋의 메타 데이터를 바탕으로 자의적인 판단이 필요할 수 있습니다.
이와 관련된 토론이 있는 유사한 질문과 답변이 여기와 여기에 있습니다. 참고하시면 더 많은 도움이 될 것입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.