52강 이원분산분석
33
작성한 질문수 4
강사님 안녕하세요.
강의를 보다가 궁금증이 생겨서요.
49. 다중선형회귀2 (범주형 변수)
에서는 강사님이 스태츠 모델즈의 ols함수에서는
범주형 변수 가 포함되어있으면 이를 자동으로 인식하고 내부적으로 원-핫 인코딩 처리를 하므로 사용자가 별도로 범주형 변수를 수치형으로 변환하는 작업이 없어도 된다고 하셨는데,
52강 이원분산분석에서는
범주형 변수를 분석할때 c()를 사용해 범주형으로 처리해야한다고 하셔서요.
이원분산분석도 ols를 사용하는데
왜 다른지 궁금합니다.
확인 부탁드릴게요!
답변 2
0
데이터 타입이 이미 무엇이냐의 문제
범주형 변수 - 자동 인식
pythonimport pandas as pd
df = pd.DataFrame({
'지역': ['서울', '부산', '서울'], # dtype: object (문자열)
'매출': [100, 200, 150]
})'지역' 컬럼이 문자열(object) 타입이면
→ OLS가 "아, 이건 범주형이구나" 자동 인식합니다.
→ 내부적으로 알아서 더미 변수 처리(원핫 인코딩)
이원분산분석 - c() 필요한 상황
pythondf = pd.DataFrame({
'비료': [1, 2, 3, 1, 2, 3], # dtype: int64 ← 문제!
'수분': [1, 1, 2, 2, 3, 3], # dtype: int64 ← 문제!
'수확량': [10, 20, 15, 25, 30, 35]
})'비료', '수분' 컬럼이 숫자(int) 타입이면
→ OLS가 "아, 이건 연속형 수치변수구나" 로 잘못 인식합니다.
→ c(비료) 를 써줘야 "숫자처럼 생겼지만 범주형이야!" 라고 명시
0
안녕하세요, 인프런 AI 인턴입니다. 연정님, 이원분산분석과 선형회귀에서의 ols 사용법에 대해 혼란을 느끼신 것 같습니다.
ols 함수는 범주형 변수를 자동으로 처리할 수 있습니다. 그러나 이 능력을 활용하는 방식은 회귀 분석과 분산분석에서 약간의 차이가 있습니다.
회귀 분석에서의
ols: 일반적으로 회귀 분석에서는 범주형 변수를 명시적으로 인코딩하지 않아도ols함수 내부에서 자동으로 처리하여 비교적 편리하게 사용할 수 있습니다. 즉, 포뮬러에 범주형 변수를 바로 넣어도 작동합니다.분산분석에서의
ols: 반면, 이원분산분석에서는 범주형 변수를 명시적으로C()로 감싸야 하는데, 이는 해당 변수를 범주형 데이터로 확실하게 인식시키기 위함입니다. 특히, 수치형으로 저장된 범주형 변수를 정교하게 다루기 위하여 필요한 조치입니다. 이렇게 함으로써 각 수준에 대한 정확한 분석과 해석이 가능합니다.
비슷한 주제에 대한 다른 유용한 답변을 제공하는 게시글과 게시글을 참고하시면 도움이 될 것입니다. 여기서 논의된 바와 같이, 자동 처리되어도 특정 경우에 수작업 처리가 요구될 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
캐글 제출 점수
0
7
1
기출 마무리 방법
0
22
1
빅이시 작업형2 기초 - 케이스 1~3 관련 문의
0
13
1
데이터프레임 슬라이싱 인덱싱 질문2
0
14
2
단일표본검정, 샤피로검정, 윌콕슨검정
0
25
2
강의자료 다운로드 여부
0
26
2
문제에 첨부된 예시와 실제 출력된 샘플 비교
0
23
2
원핫 인코딩 관련
0
30
2
타겟 분리
0
28
2
Id 삭제
0
29
2
roc_auc_score 질문: 작업형2 모의문제3 09분 48초
0
29
2
원핫인코딩 코드 질문
0
28
2
map 함수 사용 필수적인가요
0
35
2
수강 기한 연장 문의드립니다.
0
42
2
34강 평가지표
0
35
2
103강 작업2형 전처리(레이블인코딩 부분) 오류
0
25
3
작업형1_section14 문의
0
22
2
작업형1_연습문제 7번 관련입니다.
0
26
2
데이터 프레임 슬라이싱 혹은 데이터 선택하기가 어렵습니다.
0
24
2
크로스 밸리데이션 질문
0
32
2
로지스틱 회귀분석 질문
0
30
2
수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?
0
31
2
2유형 object 컬럼 인코딩 관련 질문
0
47
2
하이퍼파라미터 변수
0
38
2





