인프런 커뮤니티 질문&답변

성한님의 프로필 이미지
성한

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

이원 분산 분석

C( ) 를 묶는 이유

해결된 질문

작성

·

336

0

  • 예시문제 작업형3(신 버전)

종자는 문자데이터에 잘 매칭되어있지만, 비료는 범주형임에도 불구하고 현재 수치형 11 ..로 배치되어 있기 때문에 비료에만 C ( )를 붙여준다고 설명해주셨습니다.

그러나 궁금한것은 "예시문제 작업형3(신 버전)" 타이타닉 로지스틱변환 문제에서 Gender가 male, female 인 object 데이터로 되어있으니 이를 수치형으로 바꾸신다고 C(Gender)를 해주셨는데요 그래서 제가 이번 이원분산분석 모델 만들때 비료에 C( )를 붙이지 않고 종자에만 C( )를 붙여보았습니다. 왜냐하면 비료와 토마토수 데이터들이 모두 수치형 데이터들이라 범주형 데이터인 종자 데이터들을 수치형으로 바꿔야 겠다고 생각했기 때문입니다.

 

그러나 C( )를 종자에 붙여서 model.summary 한 경우와 C ( )를 비료에 붙여서 model.summary한 경우의 계수나 p값 등이 다르더군요

질문1: 예시문제 작업형3(신 버전)에선 object형인 Gender에 C( )를 붙이시고, 이원분산분석에서는 object인 종자에 C( )를 안붙이신 이유가 궁금합니다

 

이원분산분석.JPGmodel1.JPGmodel2.JPG

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

이원 분산 분석 영상을 계속 보시면 처음에 붙이지 않고 보여드린 뒤
뒤에 종자와 비료 모두 C()를 모두 넣고 비교하고 있습니다.

정확하게는 카테고리 자료형에 붙이고 있습니다.

성한님의 프로필 이미지
성한
질문자

그렇다면 비료에 C( )를 안붙이고 종자에만C( )를 붙여 수치로 인코딩하여 다시 결과를 내어도되는건가요?

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

개념을 다시 정리해드리겠습니다.

숫자이지만 범주형 데이터(비료)가 있고

문자인 범주형 데이터(종자)가 있습니다.

C()는 원핫 인코딩입니다. 비료와 종자는 범주형 데이터로 둘 다 원핫 인코딩을 해줘야 합니다.

성한님의 프로필 이미지
성한

작성한 질문수

질문하기