inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

9회 기출유형(작업형3)

9회기출 작업형2-3

39

moonmoon250919

작성한 질문수 2

0

image.png

예측된 이탈확률이 0.xxx 형태로 출력되던데

왜 여기서 predict_proba가 아닌 predict를 이용하는지 잘 모르겠습니다.

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

아!!! 이걸 이상하게 보실 수 있겠네요! 질문 감사합니다.

statesmodels의 로지스틱 회귀 모델은 기본 예측값이 확률값으로 나옵니다.

predict -> 확률값이 나옴

 

sklearn의 로지스틱 회귀와 비교하면

  • sklearn: .predict() → 클래스 레이블, .predict_proba() → 확률값

  • statsmodels: .predict() → 확률값

1

moonmoon250919

아하! 제가 2유형과 같이 병행하여 공부하다보니 predict에 꽂혀서 헷갈렸네요

이렇게 한번 헷갈리는부분이

무엇이 다른지 정리해주시니 구분이 잘가네요 감사하빈다!!!

2유형sklearn.predict()는 클래스레이블

3유형statsmodels.predict()는 확률값이군요

0

퇴근후딴짓

응원합니다 🙂

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. moonmoon250919님.

로지스틱 회귀 분석에서 predict() 메소드는 클래스 레이블(0 또는 1)을 예측하는 반면, predict_proba()는 각 클래스에 대한 확률을 출력합니다. 일반적으로 이진 분류 문제에서 정확한 확률이 필요하지 않고 단순히 클래스 레이블이 필요할 때 predict()를 사용합니다.

질문에서 설명하신 내용처럼 이탈 확률을 예측하는 경우에는 predict를 사용하여 고객이 이탈할지 여부를 판단할 수 있습니다. 하지만 이탈 확률에 대한 더욱 정교한 분석이 필요하다면 predict_proba()를 사용하는 것이 일반적입니다. 이는 각 고객이 이탈할 확률을 명확하게 제시해 주기 때문입니다.

아래와 같은 유사한 질문이 있습니다:
- “test예측할 때 predict_proba 로 제출한 이유가…”
- “예시문제 작업형2(신버전) 질문입니다.”

이 두 게시물에서는 예측값을 확률로 제출해야 하는 상황에서 왜 predict_proba()를 사용하는지를 설명하는 내용을 포함하고 있습니다.

혹시 더 궁금하신 부분이 있다면 주저하지 말고 질문해 주세요. 활용할 수 있는 어느 정도의 배경 지식이 필요하거나, 특정 상황에 따라 로지스틱 회귀의 사용법이 다를 수 있기 때문에, 자주 반복되는 질문은 이러한 차이를 강조합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

pd.get_dummies()가 bool로 반환

0

5

1

대응표본검정 레빈

0

15

2

단일표본검정 문제 유형

0

16

2

[작업형 3] 6~7. 카이제곱 검정

0

15

2

9회 작업형3 문제 1-1

0

20

2

최종답안 계산 방식 질문

0

15

1

시험 치기 전 급하게 질문 사항

0

25

2

유형3

0

24

2

작업형 2 연습문제 섹션 3

0

18

2

11 기출문제 ipynb파일

0

21

2

작업형 3 유형

0

22

2

11회 기출 유형(작업형1) 2번 정답

0

18

2

f1 score 질문

0

19

2

10회 작업형 2 인코딩 질의

0

16

2

53번 강의에서 갑자기 수업노트가 없어졌습니다.

0

21

2

28:19 roc_auc이유

0

20

2

수강연장문의

0

23

2

전체적인 머신러닝 순서

0

25

2

빅분기 실기 유형2질문

0

26

1

ID 전처리 이유

0

33

2

데이터제공

0

33

2

예시문제 작업형3 꼬리질문2번

0

22

1

데이터 개수를 구할 때, len과 value_counts 차이

0

29

2

작업형 2 제출방

0

22

2