inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

7회 기출유형(작업형3)

기출 7회 작업형 1-3

해결된 질문

95

kki733232

작성한 질문수 3

0

안녕하세요. 질문이 있습니다.

기출 7회 작업형 1-3 문제에서 저는 강사님처럼 gender 컬럼을 pop하지 않고

그냥 바로 test 데이터를 넣어 예측하였습니다.

강사님이랑 결과는 동일하게 나오는데 혹시 gender 컬럼을 꼭 분리해야 할까요?

 

사실 test 안에는 weight 말고도 다른 독립변수들이 같이 있잖아요.

근데 모델이 독립변수로 weight을 사용하여 종속변수 gender를 예측하는 모델이니까

자동으로 test 안의 weight 변수만 사용한다고 생각하고 있는데 틀린 생각인가요?

from statsmodels.formula.api import logit

# 1) 로지스틱 회귀모델 적합 
model = logit('gender ~ weight', data = train).fit()

# 2) test 데이터의 gender 예측 (남자로 분류되는 기준을 0.5로 임의 설정)
pred = model.predict(test) > 0.5
# print(sum(pred))
# 3) error rate 구하기 
from sklearn.metrics import accuracy_score
acc = accuracy_score(test['gender'], pred)
er = 1 - acc 
print(round(er, 3)) # 0.478

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

맞는 생각입니다:) 자동으로 학습에 사용된 변수만 선택해서 진행합니다.

제가 습관적으로 타겟을 분리하고 있어요!

내일 시험 잘 보고오세요 응원합니다🔥

 

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. kki733232님,

질문에 대한 답변을 드리겠습니다.

로지스틱 회귀에 대한 올바른 이해를 돕기 위해 몇 가지 핵심 사항을 살펴보겠습니다:

  1. 데이터의 독립변수와 종속변수:

    • 로지스틱 회귀 모델을 만들 때, 독립변수와 종속변수는 명시적으로 모델 식 (gender ~ weight)에서 지정됩니다. 이때 모델은 지정된 독립변수만을 사용하여 종속변수를 예측합니다.
  2. 테스트 데이터에서의 예측:

    • 테스트 데이터에서 predict 메소드는 모델에 명시된 독립변수만을 고려합니다. 즉, test 데이터프레임 안에 weight 외의 다른 컬럼이 있어도 weight 데이터만 사용하여 예측을 수행합니다.
  3. pop 메소드 사용 여부:

    • pop 메소드는 데이터프레임에서 특정 열을 제거하고 반환하는 기능을 합니다. 종속변수를 예측할 때, pop 메소드로 gender 열을 제거하지 않아도 모델은 이미 지정된 독립변수만으로 예측을 수행하므로 결과에는 영향을 미치지 않습니다. 다만, 정확한 비교를 위해서 accuracy_score에 사용될 test['gender'] 열과 같은 형태로 남겨두는 것이 필요합니다.

따라서, test 데이터에서 gender를 분리하지 않더라도 모델의 예측에는 영향을 미치지 않지만, 실수로 인해 데이터 프레임의 구조가 변하지 않도록 주의가 필요합니다.

관련하여 유사한 질문에 대한 설명이 포함된 다음의 링크를 참고해 보시길 권장합니다:
- 로지스틱 회귀 모형 문제에서 질문 드립니다.: 로지스틱 회귀에서의 데이터 처리 방법에 대한 논의가 있습니다.
- 작업형3 로지스틱 회귀: 작업형에서의 로지스틱 회귀 처리 방법에 대한 토론이 포함되어 있습니다.

질문자님의 이해를 돕기 위해 위 정보를 제공하며, 이외에도 추가적인 궁금증이 있으시면 편하게 질문 주세요. 곧 지식공유자께서 자세한 답변을 드릴 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

로지스틱 회귀분석 질문

0

2

1

수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?

0

16

2

2유형 object 컬럼 인코딩 관련 질문

0

23

2

하이퍼파라미터 변수

0

24

2

52강 이원분산분석

0

21

2

실제시험환경에서 작업형1,2,3의 문제풀이 순서

0

25

2

독립표본검정

0

24

2

tranform을 쓰라는 힌트는 어디서 얻을 수 있나요??

0

29

2

df.describe() 사용을 자제해야할까요?

0

29

2

shape 결과에 대한 문의

0

34

2

자료 문의

0

29

2

8 회귀 11번

0

26

2

심화 강의 관련 질문

0

32

2

빈도수 구하는 것 질문

0

25

2

커리큘럼을 따로 인쇄할 수 있는 방법이 있을까요?

0

38

1

작업형2 머신러닝 문제풀이 중 test 데이터 에러 문의

0

32

2

수강연장가능문의

0

43

2

59. 11회 기출 유형 작업형 1 - 문제2 관련

0

35

2

원핫인코딩 슬라이싱 결과

0

29

2

random_state 값이 궁금합니다!

0

38

2

수강기간 연장 가능 여부 문의드립니다

0

57

2

city 컬럼 삭제

0

41

2

3회 기출(작업형 2) 질문 있습니다!!

0

42

1

2유형 탬플릿에 대한 질문입니다

0

54

1