inflearn logo
강의

Course

Instructor

Spark Machine Learning Complete Guide - Part 1

LightGBM Training and Prediction Practice in Spark

spark_xgboost_lightgbm 강의부분 관련

463

swsb0416

1 asked

0

안녕하세요. 강사님,

 

수업을 잘 듣고 있습니다!

 

다름이 아니라

 

  1. spark_xgboost_lightgbm에서 버전이 바뀌면서

앞선 댓글을 통해 SparkXGBClassifier로 수정하여

해결은 하였으나, 새로 바뀐 XGB에서는xgb_model.feature_importances 이부분이 나오질 않아서, 혹시 SparkXGBClassifier의 featureImportances

를 보려면 어떻게 해야하는지

 

  1. from mmlspark.lightgbm import LightGBMClassifier

    import mlflow

    lgbm_classifier = LightGBMClassifier(featuresCol="features", labelCol="label", numLeaves=100, maxDepth=10, numIterations=100)

lgbm_model = lgbm_classifier.fit(train_sdf)

-> 이부분부터 값이 나오질 않습니다.

오류메시지

org.apache.spark.SparkException: Job aborted due to stage failure: Task 4 in stage 73.0 failed 1 times, most recent failure: Lost task 4.0 in stage 73.0 (TID 285) (ip-번호.us-west-2.compute.internal executor driver): java.lang.NoSuchMethodError: com.microsoft.ml.lightgbm.lightgbmlib.new_doubleArray(J)Lcom/microsoft/ml/lightgbm/SWIGTYPE_p_double;

이 두부분에 대해서 문의 드립니다!

 

머신러닝 빅데이터 apache-spark 데이터-엔지니어링

Answer 1

0

dooleyz3525

안녕하십니까,

  1. 강의에서도 말씀드리듯이 feature importance는 xgb_model.feature_importances 가 아니라 xgb_model.get_feature_importances() 로 보셔야 합니다.

  2. 지금 databricks cluster 버전이 12.2 LTS, Spark 3.3.2 그리고 Lightgbm library는 강의와 동일하게 제가 설치해서 테스트 해보는데 별 문제 없이 잘 됩니다. Cluster와 Lightgbm library를 새롭게 생성해서 다시 한번 테스트 해보시고, 그래도 안되시면 사용하시는 databricks cluster 버전과 Spark 버전을 여기에 올려봐 주십시요.

     

    감사합니다.

     

0

swsb0416

안녕하세요~ 강사님,

두 부분 다 해결했습니다.

감사합니다^^

 

데이터 브릭스 이슈

0

89

2

데이터 브릭스 가입

0

83

2

pyspark local 설치

0

79

2

community edition 가입 문의

0

88

2

데이터 로드 및 로딩 된 파일 데이터 목록 조회 방

0

159

2

클러스터 버전 설정

0

122

3

instacart market basket analysis

0

169

3

spark 추가 학습 관련 질문

0

221

2

MLOps 관련 MLFLow 및 Databricks 모델 서빙

0

374

1

train파일 업로드 중에 해당 경로가 없다고 뜹니다

0

366

2

강의가 재생되지 않음

0

257

2

후속 강의 계획 질문드립니다.

0

364

1

spark환경에서 데이터 수정에 관하여 질문이 있습니다.

1

312

1

Spark를 이용하여 binary file -> parquet, csv 변환 가능여부

0

560

1

SPARK 2 강의 오픈

0

490

1

Spark ML 모델 서빙

0

559

1

mac os ) zip 파일 dataframe 오류

0

659

1

ModuleNotFoundError : No module named 'mmlspark' - 20230218

0

616

1

TrainValidationSplit과 randomSplit 사용 질문

0

393

1

현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?

0

509

1

cluster 생성 Database runtime version 질문

0

268

1

Pandas vs Spark: 비용, 처리시간 비교

0

1227

1

sparkdl library 설치 관련 질문

0

386

1

선생님 실습환경 질문드립니다.

0

255

1