inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제 3

해결된 질문

48

ssjmj0404

작성한 질문수 10

0

영상 위치) 21:25

 

결과 예측 관련 질문입니다.

 

1) 랜덤포레스트랑 XGB로 평가한 후, 마지막에 예측은 XGB로 했는데

어떤 기준으로 XGB를 선택하는건가요??

 

2) pred랑 pred_proba 중에 pred_proba를 사용한 이유가 있나요?

pred_proba = xgb.predict_proba(test)

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

  1. 검증데이터 평가 지표를 기준으로 판단합니다 🙂 시험에서 랜덤포레스트만 사용해도 40점에 문제없었어요

  2. 아래 ai 인턴도 잘 설명해줬는데 혹시 이해가 안된다면, 제가 새롭게 업로드한 "머신러닝 프로세스 New" 버전 마지막부분 시청 부탁드리겠습니다

     

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

ssjmj0404님, 질문 주신 부분에 대해 설명드리겠습니다. 여러 모델을 사용하여 예측을 진행할 때, 각각의 모델을 평가하고 최종적으로 어떤 모델의 결과를 사용할지 선택하는 것이 중요합니다.

  1. XGB 선택 기준: 일반적으로 여러 모델을 사용하여 예측할 때는 각 모델의 성능을 평가하는 메트릭을 기준으로 선택합니다. 예를 들어, 회귀 모델에서는 R^2 값이나 Mean Squared Error (MSE)를 사용할 수 있으며, 분류 모델에서는 Accuracy, Precision, Recall, F1-score, AUC-ROC 등의 지표를 사용합니다. 질문에서 ‘마지막에 예측은 XGB로 했다’고 하신 부분은 아마 이러한 평가 지표 중 XGB가 다른 모델보다 우수한 성능을 보여 선택된 것이 아닐까 합니다.

  2. predpredict_proba 사용 이유: predict_proba 메소드는 클래스에 속할 확률을 반환합니다. 예를 들어 이진 분류 문제에서는 [클래스 0의 확률, 클래스 1의 확률] 형태로 출력됩니다. 만약 이 확률 값을 사용하여 특정 기준(예: 0.5 이상일 때 클래스 1로 분류)을 적용하여 최종 결정을 내리고자 한다면 predict_proba가 유용합니다. 반면 predict는 데이터를 주어진 클래스 레이블로 바로 분류합니다. predict_proba를 사용하는 이유는 각 분류에 대한 확률을 평가하거나 비율에 따라 가중치를 적용하는 등, 세부적인 조정을 가능하게 하기 때문일 것입니다.

혹시 관련 정보를 더 확인하시려면, 이곳에서 유사한 내용을 다룬 답변을 참조하실 수 있습니다. 해당 게시글에서는 모델 선택과 predict_proba의 사용에 대한 추가 설명을 제공합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

빅이시 작업형2 기초 - 케이스 1~3 관련 문의

0

6

1

데이터프레임 슬라이싱 인덱싱 질문2

0

11

1

단일표본검정, 샤피로검정, 윌콕슨검정

0

20

2

강의자료 다운로드 여부

0

18

1

문제에 첨부된 예시와 실제 출력된 샘플 비교

0

16

2

원핫 인코딩 관련

0

26

2

타겟 분리

0

22

2

Id 삭제

0

25

2

roc_auc_score 질문: 작업형2 모의문제3 09분 48초

0

23

2

원핫인코딩 코드 질문

0

23

2

map 함수 사용 필수적인가요

0

31

2

수강 기한 연장 문의드립니다.

0

39

2

34강 평가지표

0

32

2

103강 작업2형 전처리(레이블인코딩 부분) 오류

0

25

3

작업형1_section14 문의

0

20

2

작업형1_연습문제 7번 관련입니다.

0

24

2

데이터 프레임 슬라이싱 혹은 데이터 선택하기가 어렵습니다.

0

22

2

크로스 밸리데이션 질문

0

26

2

로지스틱 회귀분석 질문

0

27

2

수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?

0

31

2

2유형 object 컬럼 인코딩 관련 질문

0

44

2

하이퍼파라미터 변수

0

35

2

52강 이원분산분석

0

32

2

실제시험환경에서 작업형1,2,3의 문제풀이 순서

0

39

2