이원분산분석 범주형변수 C()처리
54
작성한 질문수 8
전에 다른 질문에서, 범주형 변수는 C()를 처리하라고 하셨었고,
범주형 변수중에서도 숫자로 되어있는 (문제의 물주기 처럼) 경우에만 C()를 필수로 해야한다고 하시고,
문제에서 범주형 변수다! 라고 주어지지 않으면 C()를 쓰지 말라고 하셨는데요...
어떻게 해야할까요..!!!!!!
이번문제의 경우 아예 범주형변수라고 주어지지 않았으니 모든 변수에 C()를 빼고 할까요? 그럼 코랩의 답안과 달라지긴 하더라구요!
답변 3
0
확인감사합니다. 그럼 일원분산분석에서는 groups에 c()를 안하셨던데, 이유가 있을까요?
원래도 문자로 작성된거라 쓰나 안쓰나 차이가 없어서일까요?
1
groups을 C()로 했을 때와 안 했을 때 한번 확인해 주시겠어요?
어제 새소식으로 안내드리긴 했는데
문자면 자동으로 인코딩처리 됩니다.
0
안녕하세요, 인프런 AI 인턴입니다. bonanza9312님께서 이원분산분석에서 범주형 변수 처리에 대한 질문을 해주셨습니다. 이와 관련해 기본적인 가이드를 제공해 드릴게요.
먼저, C() 함수는 범주형 변수를 명시적으로 지정하는 용도로 사용됩니다. 이는 데이터 분석의 정확성을 높이고, 모델이 각 데이터를 올바르게 해석할 수 있도록 돕는 역할을 합니다.
범주형 변수 처리:
- 문자열 형식의 범주형 변수: 자동으로 범주형으로 인식되기 때문에
C()를 사용하지 않아도 됩니다.
- 숫자로 코딩된 범주형 변수:
C()를 사용해야 범주형으로 처리됩니다. 예를 들어,1, 2, 3과 같은 숫자가 실제 범주를 나타내는 경우입니다.
- 문자열 형식의 범주형 변수: 자동으로 범주형으로 인식되기 때문에
문제에서 명시된 경우:
- 문제에서 특정 변수를 범주형으로 명시한다면, 해당 변수에
C()를 추가하는 것이 좋습니다.
- 문제에서 범주형 변수임을 명시하지 않았다면, 변수가 가지는 의미를 고려해
C()의 사용 여부를 결정하는 것이 중요합니다.
- 문제에서 특정 변수를 범주형으로 명시한다면, 해당 변수에
범주형 변수의 명시 없이 모든 변수에
C()를 사용하지 않는 것:- 범주형 변수임을 스스로 판단해야 하는 경우 아닙니다. 자동으로 잘못 처리될 수 있어 주의가 필요합니다.
C()처리를 잘못할 경우 결과가 달라질 수 있으니, 코랩의 참고 답안과 비교하여 확인하는 것도 좋은 방법입니다.
- 범주형 변수임을 스스로 판단해야 하는 경우 아닙니다. 자동으로 잘못 처리될 수 있어 주의가 필요합니다.
추가적인 학습 자료:
- 이원분산분석에서 범주형 데이터 처리 질문드립니다.
이 질문에서는 숫자로 표현된 범주형 데이터와C()처리와 관련된 내용이 다루어집니다.
위 링크를 참고하여 범주형 변수 처리에 대한 이해를 돕길 바랍니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
28:19 roc_auc이유
0
4
1
수강연장문의
0
7
1
전체적인 머신러닝 순서
0
5
1
빅분기 실기 유형2질문
0
10
0
ID 전처리 이유
0
23
2
데이터제공
0
21
2
예시문제 작업형3 꼬리질문2번
0
10
0
데이터 개수를 구할 때, len과 value_counts 차이
0
17
2
작업형 2 제출방
0
15
2
인코딩 스케일링 순서
0
17
2
실제 시험에서도 공식을 문제에서 주는지
0
16
2
수강 연장 문의
0
16
2
작업형2 정리한 내용 확인 부탁드립니다 ㅜㅜ
0
19
1
14강 "" 사용 관련 질문
0
21
2
캐글 제출 점수
0
26
2
기출 마무리 방법
0
49
2
빅이시 작업형2 기초 - 케이스 1~3 관련 문의
0
31
6
데이터프레임 슬라이싱 인덱싱 질문2
0
27
2
단일표본검정, 샤피로검정, 윌콕슨검정
0
37
2
강의자료 다운로드 여부
0
38
2
문제에 첨부된 예시와 실제 출력된 샘플 비교
0
30
2
원핫 인코딩 관련
0
39
2
타겟 분리
0
39
2
Id 삭제
0
44
2





