inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제3

작업형2 모의문제3

해결된 질문

277

작성자 없음

작성한 질문수 0

0

안녕하세요 선생님, 질문은 3가지 입니다.

1) 저는 문제를 딱 접했을때 분류모형을 써야할지, 예측모형을 써야할지 판가름을 정확하게 못하는 것 같습니다.

쉽게 판별하는 방법이 있을까요?

 

2) 이 문제의 경우 target인 output 컬럼을 train.head() 로 보면 0과 1로 구분되어있어서, 0 또는 1로 분류하는(분류모형) 것인가 생각했다가도 문제 맨위에서 참조해주는 예시에서

id,output 41,0.633 28,0.123 222,0.355

를 보면 output이 확률값으로 되어있어서 회귀모형을 사용해야하는 것인가? 라고 헷갈리곤합니다. 어디서 개념을 잡지 못하는 것일까요

 

3) 최종 예측을 할때

pd.DataFrame({'id':test_id, 'output':pred_proba[:,1]}).to_csv("00000.csv", index=False)

output에 pred_proba 를 쓰셨는데 참조예시에서 확률값을 OUTPUT에 담았기 때문에 pred_proba를 사용한 것일까요?

그렇다면 output에 pred 를 담는 경우는 어떤 경우인지요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

0

퇴근후딴짓

1

문제 또는 데이터 중 타겟을 보고 확인합니다.

  • 분류모형(Classification Model): 이산적인 범주(카테고리)로 나누는 문제를 해결하기 위해 사용됩니다. 예를 들어, 이메일이 스팸인지 아닌지(이진 분류), 어떤 과일의 종류를 결정하는 문제(다중 분류) 등이 있습니다.

  • 예측모형(Regression Model): 연속적인 값을 예측하는 데 사용됩니다. 예를 들어, 주택 가격, 온도, 매출액 등과 같이 특정 범위 내의 어떤 수치를 예측할 때 사용합니다.

평가 지표를 보고도 확인할 수 있습니다. (분류와 회귀는 평가 지표가 달라요)

 

2

output 컬럼이 0과 1로 구분되어 있다면, 이진분류 입니다.
output이 0과 1 사이의 확률 값으로 표현되어 있다면, 이는 분류 모형의 출력을 확률로 표현한 것일 수 있습니다.최종 출력이 레이블(0 또는 1)이 아니라 해당 레이블일 확률입니다. 확률을 물을 때는 평가지표가 roc-auc입니다.

 

3

분류 모델에서 pred_proba는 각 클래스에 대한 예측 확률을 나타냅니다. 만약 이진 분류 문제라면, 일반적으로 두 컬럼이 반환됩니다: 하나는 0 클래스(예: 음성 클래스)의 확률, 다른 하나는 1 클래스(예: 양성 클래스)의 확률입니다. 예시에서 output에 확률 값을 사용하는 경우, pred_proba[:, 1] (1 클래스의 확률)을 사용합니다.

pred 사용: pred는 보통 예측된 레이블을 나타냅니다. 즉, 각 샘플에 대해 가장 높은 확률을 가진 클래스 레이블을 직접 반환합니다. 이는 확률이 아니라 직접적인 분류 결과(0 또는 1)를 원할 때 사용됩니다.

따라서, 결과가 확률로 요구(평가지표가 roc-auc)된다면 pred_proba를, 레이블 자체가 필요하다면 pred를 사용합니다.

데이터 전처리 관련

0

6

2

시험에서 문제 불러오기

0

6

2

2번문제 출력값 질문

0

11

2

pd.get_dummies()가 bool로 반환

0

11

2

대응표본검정 레빈

0

17

3

단일표본검정 문제 유형

0

17

2

[작업형 3] 6~7. 카이제곱 검정

0

15

2

9회 작업형3 문제 1-1

0

26

2

최종답안 계산 방식 질문

0

16

1

시험 치기 전 급하게 질문 사항

0

27

2

유형3

0

26

2

작업형 2 연습문제 섹션 3

0

18

2

11 기출문제 ipynb파일

0

27

2

작업형 3 유형

0

24

2

11회 기출 유형(작업형1) 2번 정답

0

22

2

f1 score 질문

0

19

2

10회 작업형 2 인코딩 질의

0

17

2

53번 강의에서 갑자기 수업노트가 없어졌습니다.

0

21

2

28:19 roc_auc이유

0

21

2

수강연장문의

0

25

2

전체적인 머신러닝 순서

0

26

2

빅분기 실기 유형2질문

0

27

1

ID 전처리 이유

0

34

2

데이터제공

0

33

2