inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

스파크 머신러닝 완벽 가이드 - Part 1

Crossvalidator best_model 관련 질문

223

nathan

작성한 질문수 88

0

교차검증과 그리드 기반 하이퍼 파라미터 튜닝 관련해서 질문 있습니다.
(실습코드 spark_cross_validation_hyperparamer_tuning 파일)
 
수업코드를 보면 cv_model = cv.fit(train_sdf_vectorized) 을 통해서 cv_model 을 일단 도출하고
1. 그냥 cv_model 로 한번 예측을 하고
predictions = cv_model.transform(test_sdf_vectorized)
 
 
2. 그 다음에 bestModel을 명확하게 지정해서 다시 예측을 하시는데요
best_dt_model = cv_model.bestModel
best_model_predictions = best_dt_model.transform(test_sdf_vectorized)
 
우연의 일치인지는 모르지만 accuracy 결과가 같습니다.
 
질문은 다음과 같습니다.
그냥 cv_model로 예측을 하는 경우에는 자동으로 bestModel로 예측을 하는 것이 아닌가요?
만약 아니라면 어떤 파라미터로 예측을 하는 건가요?(예 : 평균값 등)
 
 

데이터 엔지니어링 apache-spark 머신러닝 배워볼래요? bigdata

답변 1

0

권 철민

안녕하십니까, 

cross validator는 fit( )을 호출하면 최적의 하이퍼 파라미터를 찾는것과 동시에 refit을 통해서 결정된 최적의 하이퍼 파라미터로 학습까지 수행할 수 있습니다.

이렇게 학습된 모델을 bestModel 속성에 저장합니다.  그래서 cv_model.transform( )은 결국 cv_model의 bestModel.transform( )과 동일한 작업을 수행합니다.  

때문에 성능 평가가 동일한 결과를 가집니다. 

감사합니다. 

강사님 안녕하세요 ㅎdatabricks환경에 대한 설

0

63

3

데이터 브릭스 이슈

0

111

2

데이터 브릭스 가입

0

98

2

pyspark local 설치

0

101

2

community edition 가입 문의

0

113

2

데이터 로드 및 로딩 된 파일 데이터 목록 조회 방

0

171

2

클러스터 버전 설정

0

137

3

instacart market basket analysis

0

191

3

spark 추가 학습 관련 질문

0

235

2

MLOps 관련 MLFLow 및 Databricks 모델 서빙

0

405

1

train파일 업로드 중에 해당 경로가 없다고 뜹니다

0

376

2

강의가 재생되지 않음

0

267

2

후속 강의 계획 질문드립니다.

0

374

1

spark_xgboost_lightgbm 강의부분 관련

0

476

1

spark환경에서 데이터 수정에 관하여 질문이 있습니다.

1

327

1

Spark를 이용하여 binary file -> parquet, csv 변환 가능여부

0

574

1

SPARK 2 강의 오픈

0

499

1

Spark ML 모델 서빙

0

572

1

mac os ) zip 파일 dataframe 오류

0

674

1

ModuleNotFoundError : No module named 'mmlspark' - 20230218

0

631

1

TrainValidationSplit과 randomSplit 사용 질문

0

403

1

현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?

0

519

1

cluster 생성 Database runtime version 질문

0

277

1

Pandas vs Spark: 비용, 처리시간 비교

0

1241

1