inflearn logo
강의

講義

知識共有

ビッグデータ分析記事実技コントラスト(R活用)

作業型2タイプ

작업형제2유형 질문입니다.

231

rednugoori6548

投稿した質問数 14

0

auc값을 이용하여 모델을 제출할때 예를 들어

1번=>glm으로 나온 값 : 0.5

2번=>rpart로 나온 값 : 0.6

3번=>위의 2개를 더해 2로 나눈 값 : 0.55

라고 가정했을 때 auc값은 1에 가까울수록 좋은 모형으로 평가하기 때문에 rpart모델을 선택해서 최종 모델로 만든다음 제출해야 하는 거 아닌가요...?

수업내용들을 보면 3번을 제출하더라구요...

정확하게 이해가 안 갑니다.ㅠㅠ

 

bigdata

回答 2

1

rednugoori6548

정말 자세한 답변 너무너무 감사합니다.!!!!

확실히 이해 했습니다.!!!

0

companionclub

 

안녕하세요.

위에 질문하신대로 1에 가까운 모델이 좋은모델이 맞습니다.

두 모델의 산술평균값보다 단일 모델의 성능이 좋으면 그것을 제출해도 됩니다.

 

제가 3번을 제출한 이유는

우리가 답지를 모르는 test dataset (예측변수가 없는 데이터)는 평가가 불가능하기 때문에

단순히 각 관측치(행)별 확률만 제출하는 상황이 됩니다.

 

그 때, 그래도 그나마 안정적인 성능을 발휘하고자 하는 이유에서 산술평균을 냅니다.

사실 엄청나게 큰 차이가 나지는 않겠지만 일반적으로 단일모델보다는 결합모델이 성능이 안정적이기

때문입니다. 실제로 예측값의 auc가 rpart가 높을지 glm이 높을지 결합값이 높을지 알수가 없습니다.

우리는 답지를 알 수 없기 때문입니다.

그러나 확률적으로 결합한 모델의 예측값이 조금 더 나을 것이라는 기대를 가지고 결합을 하게 됩니다.

 

아마 데이터를 train/test로 분할하시는 코드를 다시 실행하고 모델을 만들때마다

각 모델의 예측확률이 계속 변화하고 어떤 모델이 좋았다가 나빴다가 할 것입니다.

어떤 데이터가 어떤 모델에 들어가느냐에 따라 변화합니다.

 

결론적으로, 높은 auc를 가지는 모델을 제출하는 것이 맞으나 확률적으로

강건하고 안정적인 모델의 결과를 제출하기 위해서 산술평균을 한다고 보시면 되겠습니다.

 

마지막 질문이될것같습니다 선생님!!

0

292

1

5회 2유형

0

345

1

작업형제2유형 질문입니다.

0

422

1

rmse질문입니다.

0

339

1

제5회 빅데이터분석기사 실기 응시 가이드 질문입니다.

0

447

2

제4회 실기시험 리뷰 작업형2문제

0

418

2

출제예상문제풀이 1번 문제 질문입니다

0

287

1

제4회 실기시험 리뷰 작업형1에서 3번문제 질문입니다.

0

193

1

제4회 실기시험 리뷰 작업형1질문 1번문제

0

274

1

회귀모델구축 질문입니다.

0

282

2

작업형 2유형 질문

0

251

1

작업형 제2유형 질문입니다.

0

177

1

제4회 작업형2 실기 질문입니다.

0

283

2

제4회 작업형2 실기시험 질문입니다.

0

325

2

3회 작업형 1유형 전처리 문제

0

267

1

예상문제 작업2유형 샘플파일이 읽혀지지 않는 문제

0

300

3

실기4 유형2 질문

0

201

1

실기 3회 유형2 세부사항 문의

0

241

2

섹션 4 예상문제

0

195

1

열공중입니다 도와주세요 감사합니다!!

0

175

1

학습 질문있습니다!

0

231

1

덕분에 합격했습니다만..

0

175

1

덕분에 합격했습니다.

1

168

1

작업2유형 분류문제

0

400

2