inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제3

작업형2 모의문제3

해결된 질문

268

작성자 없음

작성한 질문수 0

0

안녕하세요 선생님, 질문은 3가지 입니다.

1) 저는 문제를 딱 접했을때 분류모형을 써야할지, 예측모형을 써야할지 판가름을 정확하게 못하는 것 같습니다.

쉽게 판별하는 방법이 있을까요?

 

2) 이 문제의 경우 target인 output 컬럼을 train.head() 로 보면 0과 1로 구분되어있어서, 0 또는 1로 분류하는(분류모형) 것인가 생각했다가도 문제 맨위에서 참조해주는 예시에서

id,output 41,0.633 28,0.123 222,0.355

를 보면 output이 확률값으로 되어있어서 회귀모형을 사용해야하는 것인가? 라고 헷갈리곤합니다. 어디서 개념을 잡지 못하는 것일까요

 

3) 최종 예측을 할때

pd.DataFrame({'id':test_id, 'output':pred_proba[:,1]}).to_csv("00000.csv", index=False)

output에 pred_proba 를 쓰셨는데 참조예시에서 확률값을 OUTPUT에 담았기 때문에 pred_proba를 사용한 것일까요?

그렇다면 output에 pred 를 담는 경우는 어떤 경우인지요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

0

퇴근후딴짓

1

문제 또는 데이터 중 타겟을 보고 확인합니다.

  • 분류모형(Classification Model): 이산적인 범주(카테고리)로 나누는 문제를 해결하기 위해 사용됩니다. 예를 들어, 이메일이 스팸인지 아닌지(이진 분류), 어떤 과일의 종류를 결정하는 문제(다중 분류) 등이 있습니다.

  • 예측모형(Regression Model): 연속적인 값을 예측하는 데 사용됩니다. 예를 들어, 주택 가격, 온도, 매출액 등과 같이 특정 범위 내의 어떤 수치를 예측할 때 사용합니다.

평가 지표를 보고도 확인할 수 있습니다. (분류와 회귀는 평가 지표가 달라요)

 

2

output 컬럼이 0과 1로 구분되어 있다면, 이진분류 입니다.
output이 0과 1 사이의 확률 값으로 표현되어 있다면, 이는 분류 모형의 출력을 확률로 표현한 것일 수 있습니다.최종 출력이 레이블(0 또는 1)이 아니라 해당 레이블일 확률입니다. 확률을 물을 때는 평가지표가 roc-auc입니다.

 

3

분류 모델에서 pred_proba는 각 클래스에 대한 예측 확률을 나타냅니다. 만약 이진 분류 문제라면, 일반적으로 두 컬럼이 반환됩니다: 하나는 0 클래스(예: 음성 클래스)의 확률, 다른 하나는 1 클래스(예: 양성 클래스)의 확률입니다. 예시에서 output에 확률 값을 사용하는 경우, pred_proba[:, 1] (1 클래스의 확률)을 사용합니다.

pred 사용: pred는 보통 예측된 레이블을 나타냅니다. 즉, 각 샘플에 대해 가장 높은 확률을 가진 클래스 레이블을 직접 반환합니다. 이는 확률이 아니라 직접적인 분류 결과(0 또는 1)를 원할 때 사용됩니다.

따라서, 결과가 확률로 요구(평가지표가 roc-auc)된다면 pred_proba를, 레이블 자체가 필요하다면 pred를 사용합니다.

질문 드립니다.

0

41

2

강의 내용 관련 질문드립니다~

0

40

2

수강 연장 문의

0

39

1

강의자료 일괄 다운로드

0

46

2

수강기간 연장 문의드립니다

0

31

1

list 문제 질문드립니다~

0

33

2

빅분기 실기 12회 재도전

0

44

1

강의 기간 연장 가능여부 검토 요청건

0

32

1

수강기간 연장 문의 드립니다

0

42

2

수강기간 연장 문의드립니다

0

48

2

질문이요

0

52

2

수강기간 연장 문의드립니다.

0

53

2

문제 3-2 질문드립니다

0

45

2

수강기간 연장 문의 드립니다.

0

59

2

변수, 칼럼 , df 구분

0

50

2

수강기간 연장 문의드립니다.

0

50

2

수강기간 연장 문의

0

49

2

수강기간 연장 문의드립니다.

0

42

2

수강기한 연장 문의

0

80

2

수강기간 연장 문의드립니다

0

59

2

결정트리에서 적절한 깊이 선택 후 시각화 과정에서 학습 데이터만 사용하는 이유

0

45

2

수강기간 연장 문의드립니다.

0

72

2

수강연장 문의

0

78

2

수강연장문의

0

53

2