inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

7회 기출유형(작업형3)

7회 기출유형(작업형3) 2-2 문제 질문드립니다

해결된 질문

64

juha46

작성한 질문수 2

0

전 아래 코드처럼 작성했는데 정답과 다르게 나오더라구요 어느 부분 때문에 다른 건지 알려주실 수 있을까요?

df['CPU'] = df['CPU'] < 100
from statsmodels.formula.api import ols
model = ols('ERP ~ Feature1 + Feature2 + Feature3 + CPU',data = df).fit()
print(model.summary())

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

df['CPU'] = df['CPU'] < 100 로 CPU 데이터를 변경하셨어요!

이 코드 전후로 df.head() 확인 부탁드려요 🙂

그 결과 ols 서머리가 달라졌습니다.

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

juha46님의 질문을 잘 읽어보았습니다. 제공해주신 코드를 통해 문제 해결 방향을 이해하며 유사한 질문과 답변을 찾아보았습니다.

우선적으로, OLS 회귀 분석 모델을 빌드하는 과정에서 df['CPU'] = df['CPU'] < 100 문장이 문제될 수 있습니다. 이 구문은 CPU 변수의 값을 True 혹은 False로 변환시키므로, CPU의 원래 수치 값을 사용해야 하는 경우라면 회귀 분석에 영향을 미치게 됩니다.

회귀 분석에서 이진 변수를 사용하려는 의도가 있다면, 의도한 대로 CPU가 100보다 작은 경우를 특정하게 선택하는 것이 아니라, 이진 변수로 변환 후 해당 변수 사용이 적절한지 다시 확인해보실 필요가 있습니다.

관련하여 유사한 문제와 답변은 아래 질문에서 확인하실 수 있습니다:
- “다중 회귀분석 성능 차이”: 이 게시물에서는 다양한 회귀 모델 빌드 방법, 특히 olsOLS의 차이점 및 상수항 관련 이슈에 대해 다룹니다. 데이터 전처리나 OLS 모델 빌드 과정에 관심이 있으시다면 도움이 될 수 있는 자료입니다.

추가적인 오차 원인을 분석하려면, 데이터의 다른 변수들과 상호작용, 그리고 데이터 전처리 과정에 대해 점검해보시는 것을 권장드립니다. 만약 CPU를 특정한 기준으로 이진 형태로 사용할 의도가 아니라면, 원래의 연속형 데이터를 활용하시길 추천드립니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

빅이시 작업형2 기초 - 케이스 1~3 관련 문의

0

4

1

데이터프레임 슬라이싱 인덱싱 질문2

0

10

1

단일표본검정, 샤피로검정, 윌콕슨검정

0

20

2

강의자료 다운로드 여부

0

18

1

문제에 첨부된 예시와 실제 출력된 샘플 비교

0

15

2

원핫 인코딩 관련

0

26

2

타겟 분리

0

22

2

Id 삭제

0

25

2

roc_auc_score 질문: 작업형2 모의문제3 09분 48초

0

23

2

원핫인코딩 코드 질문

0

22

2

map 함수 사용 필수적인가요

0

31

2

수강 기한 연장 문의드립니다.

0

39

2

34강 평가지표

0

32

2

103강 작업2형 전처리(레이블인코딩 부분) 오류

0

23

3

작업형1_section14 문의

0

20

2

작업형1_연습문제 7번 관련입니다.

0

24

2

데이터 프레임 슬라이싱 혹은 데이터 선택하기가 어렵습니다.

0

22

2

크로스 밸리데이션 질문

0

24

2

로지스틱 회귀분석 질문

0

25

2

수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?

0

29

2

2유형 object 컬럼 인코딩 관련 질문

0

44

2

하이퍼파라미터 변수

0

35

2

52강 이원분산분석

0

32

2

실제시험환경에서 작업형1,2,3의 문제풀이 순서

0

39

2