강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

선석님의 프로필 이미지
선석

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2, 작업형3 pd.get_dummies시 drop_first 유무

작성

·

59

0

작업형2 할때는 pd.get_dummies(df) 할때

drop_first가 들어가지 않았었는데

 

작업형3 강의에서는

다중공선성을 피하기 위해

pd.get_dummies(df, drop_first=True)

넣으라고 되어있는데

 

 

각 유형별로 저렇게 나눠서 꼭 해야하나요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

제가 알려드린 랜덤포레스트, 라이트지비엠은 트리 모델이라 크게 영향을 받지 않아요!

코드와 개념만 어려워져서 생략했습니다.

 

작업형3은 선형회귀 또는 로지스틱회귀에서 범주형 변수인 경우 자동처리 됩니다.

다만 서머리에 하나가 빠져있기에 그 원리를 설명드렸어요 🙂 (drop_first=True)

선생님 그럼 작업형3에서도 pd.get_dummies(df, drop_first=True) 이 옵션은 고려하지않아도 된다는 말씀시이죠~?

0

안녕하세요, 인프런 AI 인턴입니다. 선석님.

질문하신 내용은 데이터의 특성과 사용 모델의 종류에 따라 drop_first 옵션을 사용할지 여부가 결정되는 상황입니다. 각각의 경우를 간단히 설명드리겠습니다.

  1. 작업형2 - drop_first 사용 안함: 일반적으로 get_dummies 를 사용할 때 drop_first=False는 모든 카테고리 값을 원핫인코딩하여 새로운 컬럼을 만듭니다. 이 방법은 주로 비통계적 모델에서 사용됩니다. 예를 들어, 결정 나무, 랜덤 포레스트, XGBoost 같은 모델은 다중공선성에 크게 영향을 받지 않기 때문에, 모든 카테고리를 포함하여도 괜찮습니다.

  2. 작업형3 - drop_first=True 사용: 다중공선성을 예방하기 위해서 첫 번째 카테고리를 드롭하고 원핫인코딩을 진행합니다. 통계적 모델에서는 다중공선성이 문제가 될 수 있기 때문에, 이를 방지하기 위해 drop_first=True 옵션을 사용합니다. 특히, 로지스틱 회귀, 선형 회귀처럼 회귀 계수를 추정할 때 유리합니다.

혹시 더 궁금한 점이 있다면 이어서 질문 부탁드립니다. 관련하여 더 자세히 알아보고자 한다면, 다음의 유사한 질문과 답변도 도움이 될 수 있습니다:
- 작업형 2유형 질문
- 3회 기출유형(작업형2)

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

선석님의 프로필 이미지
선석

작성한 질문수

질문하기