월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
MLOps 관련 MLFLow 및 Databricks 모델 서빙
안녕하세요 강사님, 좋은 강의 감사드립니다! 요즘 MLOps 관련 model deploy 및 serving 하는 것이 더 중요해지고 있는데 관련 강의를 준비하고 계신지 궁금합니다. 처음에는 이 강의에 추가로 강의를 올리시는 것도 계획 중이신지 여쭙고 싶었으나, 해당 강의와 model을 deploy하고 serving 하는 것은 강의의 범위에서 벗어나는 것도 같네요 ㅎㅎ Databricks에서도 MLFlow 이용해서 experiment를 하는 것이 꽤 잘 되어 있는 것 같던데 혹시라도 관련 강의 준비하고 계시다면 너무 기대됩니다!
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
train파일 업로드 중에 해당 경로가 없다고 뜹니다
cannot access '/FileStore': No such file or directory
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
강의가 재생되지 않음
안녕하세요 본 강의 챕터9 마지막 강의와 챕터10 첫번쨰 강의가 재생되지 않습니다.지금까지 강의 잘 듣고있었는데 해당 부분만 진행이되지 않아 문의드립니다.
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
후속 강의 계획 질문드립니다.
혹시 part2 는 언제쯤 계획하고 계신지그리고 다음 강의는 어떤 강의 준비하고 계신지 궁금합니다!
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
spark_xgboost_lightgbm 강의부분 관련
안녕하세요. 강사님, 수업을 잘 듣고 있습니다! 다름이 아니라 spark_xgboost_lightgbm에서 버전이 바뀌면서앞선 댓글을 통해 SparkXGBClassifier로 수정하여해결은 하였으나, 새로 바뀐 XGB에서는xgb_model.feature_importances 이부분이 나오질 않아서, 혹시 SparkXGBClassifier의 featureImportances를 보려면 어떻게 해야하는지 from mmlspark.lightgbm import LightGBMClassifierimport mlflowlgbm_classifier = LightGBMClassifier(featuresCol="features", labelCol="label", numLeaves=100, maxDepth=10, numIterations=100)lgbm_model = lgbm_classifier.fit(train_sdf)-> 이부분부터 값이 나오질 않습니다.오류메시지org.apache.spark.SparkException: Job aborted due to stage failure: Task 4 in stage 73.0 failed 1 times, most recent failure: Lost task 4.0 in stage 73.0 (TID 285) (ip-번호.us-west-2.compute.internal executor driver): java.lang.NoSuchMethodError: com.microsoft.ml.lightgbm.lightgbmlib.new_doubleArray(J)Lcom/microsoft/ml/lightgbm/SWIGTYPE_p_double;이 두부분에 대해서 문의 드립니다!
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
spark환경에서 데이터 수정에 관하여 질문이 있습니다.
안녕하십니까 수업 잘 수강하고 있습니다!수업을 수강하며 pyspark를 통해 예전에 했던 프로젝트의 데이터를 전처리부터 머신러닝까지 적용해보는 중인데, 전처리 과정에서 데이터를 수정해야 하는 경우에 대하여 질문이 있습니다.spark의 경우 pandas처럼 바꾸고 싶은 컬럼의 값만 바꿀 수 있지가 않고, withColumn을 통해 새로운 컬럼을 만들어내는 형식으로 대체가 가능한걸로 알고 있습니다.단순히 컬럼별로 기준을 정해서 바꾸는 거면 withColumn으로도 가능하지만, 만약 개별 줄마다 값을 변경해야 할 경우 for문을 써서 바꿔야 하는 경우가 있는데, 이렇게 할 경우 제 현재 작업 환경(로컬)이 노드가 하나여서 그런지 Java.lang.OutOfMemoryError이 뜨더군요. 그래서 기존에 하던 pandas에서 하던 것 처럼 하려면, toPandas로 바꿔서 해도 되긴 합니다만.. 그러면 pyspark를 이 단계에서는 굳이 사용해봐야 의미가 없고, 또한 나중에 in-memory에서는 처리를 하기 힘든 큰 데이터의 경우에서는 pandas를 사용하지 못하니 방법이 아예 사라지게 됩니다. 그래서 질문은, 만약 이 경우처럼 세세하게 한줄한줄마다 값을 수정할 필요가 있을 경우, 어떻게 하는 것이 좋을지 궁금합니다. 또, spark dataframe을 toPandas로 변환할 경우 그냥 Pandas dataframe으로 불러오는 것과 차이점이 있는지도 여쭤보고 싶습니다.
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
Spark를 이용하여 binary file -> parquet, csv 변환 가능여부
안녕하세요.mssql에서 벌크 백업한 binary 파일을 spark를 이용하여 parquet, csv 등 파일 변환이 가능한지.. 질문 드립니다. 감사합니다.
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
SPARK 2 강의 오픈
안녕하세요.SPARK 2 강의는 언제 오픈할 예정일까요?
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
Spark ML 모델 서빙
안녕하세요. 강의 수강 하면서 많은 도움이 되었습니다.실무에서 Spark ML를 통해 학습한 모델을 저장 후 서빙할 때 어떤 방식으로 진행하는지 궁금하여 질문 드립니다.저는 이전에 파이썬 사이킷런을 이용할 때, tensorflow 도커 이미지를 이용하여, rest api로 웹 서비스에서 사용할 수 있도록 진행 했었는데, Spark ML로 학습한 모델도 동일하게 진행하면 되는지 다른 방식으로 진행하는지 궁금합니다. 또한, 강의에서 LightGBM이 Spark 분산처리로 진행할 때, 성능이 좋지 못하게 나온다 라고 보여주셨는데, 실무에서 분류 계열 지도학습을 할때, 랜덤포레스트 또는 XGBoost를 주로 사용 하시는지도 궁금합니다!감사합니다.
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
mac os ) zip 파일 dataframe 오류
안녕하세요 :-) 수업 잘 듣고 있습니다.다름이 아니라 맥os 환경에서 보여지는 파일 형태가 달라서 문의드립니다.맥 os 환경에서는, order_products_prior.csv.zip 파일을 풀고나면 하나의 csv파일만 나옵니다. 강의 동영상에서 처럼 압축을 푼 뒤에 여러가지의 파일과 폴더가 묶여 나오지 않습니다. 따라서 zip 파일 안에서 csv 파일을 다시 압축을 하고 싶지만 정상적으로 되지 않습니다. 제가 혹시나 해서 압축을 푼 뒤에 다시 csv 파일을 압축해 보았지만 결과는 다른 수강자님께서 겪고 있으셨던 화면과 동일했습니다. (zip 파일안에 다양한 파일이 존재한다는 오류)혹시 제가 잘못하고 있던 것이라면 첨언 부탁드립니다 감사합니다.
- 해결됨스파크 머신러닝 완벽 가이드 - Part 1
ModuleNotFoundError : No module named 'mmlspark' - 20230218
안녕하세요 spark 공부하면서 취준하고 있는 대학생입니다.좋은 강의 제공해주셔서 감사합니다 :-)다름이 아니라, 코드에 궁금한 점이 생겨서 문의 드립니다.mmlspark lightgbm 설치 후에 아래에 있는 코드를 실행 해야 하나요? Hyperlink로 접속을 해 봤는데 오류가 있는 거 같습니다.스파크 프레임워크로 처음 공부를 해 봐서 제가 틀린 걸 수도 있습니다. 도움 부탁드립니다:-)
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
TrainValidationSplit과 randomSplit 사용 질문
안녕하세요. 좋은 강의 감사합니다.TrainValidationSplit 수강 중 질문이 있습니다.TrainValidationSplit를 이용하여 학습과 검증 비율을 trainRatio 파라미터를 이용하여 나누게 되는데, TrainValidationSplit을 사용할 시 randomSplit은 사용할 필요가 없나요? 아니면 사용하는 경우가 있을까요? CrossValidator은 교차 검증 k fold 방식으로 알고 있는데, randomSplit에서 나눈 비율로 교차 검증을 진행하는 걸로 이해하면 될까요?예를 들면 randomSplit 0.8(학습) 0.2(검증) 으로 나누었다면, 해당 비율로 교차검증을 진행하는지 궁금합니다.마지막으로 현재 업무에서 스파크 스트리밍을 사용하고 있고 scala 기반으로 되어 있기 때문에 scala를 이용한 ml 도입을 고려하고 있습니다. 이때 강의에서 진행하는 pyspark과 비교하여 제공하지 않는 기능이라던지 고려해야 할 사항이 있을까요? 감사합니다!
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?
현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
cluster 생성 Database runtime version 질문
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 강의와 다르게 현재는 10.0이 없습니다.10.4 LTS ML (Scala 2.12, Spark 3.2.1)로 사용해도 괜찮을까요?
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
Pandas vs Spark: 비용, 처리시간 비교
안녕하세요 선생님, 항상 좋은 강의 제공해주셔서 감사합니다. 저는 데이터 관련 현업에 종사하고 있는 직장인입니다. 업무를 하다가 궁금한 점이 있어서 질문 드립니다. 데이터:매주 60만개 레코드가 업데이트 및 증가하는 DF_A매일 1000개 레코드가 업데이트 및 증가하는 DF_B Task: 매일 DF_A 와 DF_B를 1) merge하여 2) aggregation (groupby, count, merge 등 포함)을 하고 3) 결과 값을 다른 곳에 저장하는Databricks에 job이 있습니다. 이 둘을 spark로 읽어들여 merge를 함으로써 메모리 및 시간을 (이미 오래걸리지만) 절약하고 있습니다. Spark로 둘을 merge한 후, pandas로 dataframe을 변화하여, aggregation 처리를 하고 있습니다. 제가 이해하기로 Pandas는 아무래도 dataframe을 memory에 올려놓고 하다보니 groupby(), count() 와 같은 aggregation 결과를 즉각적으로 볼 수 있는 반면, spark는 memory에 올려놓지 않아서 dataframe의 레코드 개수 파악을 하기 위해 count()를 하더라도 엄청 오래걸려 aggregation 처리는 pandas로 하고 있습니다. 다만 이 경우, memory의 사용이 너무 과다하여 시간이 지날수록 처리해야하는 데이터 양이 많아지게 되면 out of memory 에러가 날 수 있는 위험이 있다고 생각이 듭니다. 제가 aggregation을 pandas로 바꿔서 하는 이유는1. pandas에 익숙해서2. spark보다 aggregation이 더 빨라서 (테스트해보지 않아 사실 정확하지 않습니다. 눈에 보이는 즉각적인 aggregation 결과만 봤을때 pandas가 더 빠르다고 생각이 들었습니다.) 제가 생각하기에 pandas가 아닌 모든 것을 spark로 aggregation 함으로써 장점은1. memory 에러가 날 걱정이 거의 없다.2. Memory를 덜 사용함으로써 비용 절감의 효과가 있다? (databricks에서 cluster를 리소스 사용량이 아닌 이미 만들어진 cluster에 대해서는 사용량이 적던 많던 사용시간에 비례해서 늘어나는 걸로 알고 있는데 확실치 않습니다.)3. 어쩌면 pandas보다 aggregation이 빠를 수 있다???위에 spark 장점 2, 3번에 대해서 특히 3번에 대해서 spark 보다 pandas의 aggregation 연산이 더 빠른지, 아직 spark로 aggregation 코드를 작성하지 않아 직접 비교는 해보지 않았습니다. 혹시 선생님의 의견으로는 모든 것을 spark로 하는게 좋을지 혹은 현재처럼 pandas로 하는 것도 괜찮을지, 그 외 추가적으로 고려해 보아야할 부분에 대한 조언 여쭙고자 질문 남깁니다. 답변에 대한 추가적인 질문은 대댓글을 남기면 되는지 혹은 질문을 다시 추가해야 선생님이 알림 받기가 편하신지 알려주시면 감사하겠습니다! 항상 좋은 컨텐츠 제공해 주심에 감사합니다!
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
sparkdl library 설치 관련 질문
안녕하세요 강사님,강의 잘 보고 있는 데이터 분석가 입니다.현재 저는 이전에 문의드린대로 Mac local 환경에서 spark를 구동해서 실습을 진행해왔고 현재 Sparkdl xgboost 패키지 강의 또한 로컬 환경에서 구동하고자 시도하고 있습니다. 다만 sparkdl의 경우 로컬환경에서 구동하는것 조금 까다로운데 혹시 참고할 만한 레퍼런스가 있을까요?SynapseML도 로컬에서 진행할 수 있을것 같은데 같은 문의드리고자 합니다, 감사합니다.
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
선생님 실습환경 질문드립니다.
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요.제가 클러스터 만드는 도중에 runtime이 10.0ML(Scala 2.12, Spark 3.2.0)이 없고 11.0ML(Scala 2.12, Spark 3.3.0)은 있는데 이걸로 선택해도 될까요?감사합니다.
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
SQL 실습 문의
안녕하세요 sql 실습 코드 강의 진행 중인데 데이터 브릭스를 사용하지 않을경우 spark.sql () 구문으로 진행해도 문제없을까요?
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
실습환경 문의
안녕하세요 현재 Data Analyst로 커리어를 시작하면서 Spark 기반의 데이터 처리와 ML model deployment 경험을 쌓고자 해당 강의를 선택하게 되었습니다. 개발 환경에 대해 질문이 있는데 Databricks 환경이 아닌 local machine 기반의 환경에서 해당 실습을 적용해도 문제가 없을까요? 클라우드 머신 성능보다는 현재 사용하고 있는 machine의 성능이 아무래도 빠를 거 같아 질문드립니다. (항후 다른 Kaggle 이나 개인 프로젝트 진행을 위해서 미리 개발환경 세팅을 해놓으면 좋을 것 같아서요)제가 꼭 필요했던 강의를 찾게 되어 굉장히 기쁩니다!!
- 미해결스파크 머신러닝 완벽 가이드 - Part 1
for loop를 이용한 createDataFrame 질문 드려요
안녕하세요 회사에서 pyspark 를 활용 중에 도움 받고 싶어 문의드립니다.현재는 엑셀로 export 받은 파일을 dataframe으로 만들어서 활용중인데pdf 를 sdf로 바꾸는 작업을 하나씩 하려니 파일이 추가될때마다 대응이 불편해서for loop 를 활용하고 싶습니다. 예를들어 파일들이 a_pdf, b_pdf, c_pdf 로 filename_pdf 에 리스트 형태로 들어있을 때(각 변수는 현재 pandas dataframe 입니다.) for name in filename_pdf:filename_pdf = namefilename_sdf = name[0:10] + '_sdf'filename_sdf = spark.createDataFrame(filename_pdf)filename_sdf.createOrReplaceTempView(filename_sdf) (위와 같이 실행하면 TypeError : Can not infer schema for type: <class 'str'> 오류 발생) 상기와 같이 pdf -> sdf -> Tempview 형태까지 자동화 하는 것이 목표입니다. 강의와는 무관하지만 spark 관련 문의드릴 곳이 여기밖에 없네요 ㅠ 도움 부탁드립니다.