묻고 답해요
130만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
수강 연장 이벤트 신청합니다.
안녕하세요!강의를 들으면서 데이터와 관련된 기술 스택들을 익히는데 많은 도움을 받고 있습니다.다름이 아니라 수강 연장 이벤트를 신청하려고 하는데,구글 설문 링크가 보이지 않아서 이렇게 커뮤니티에 글을 남깁니다.혹시 이벤트 기간이 종료가 된건지 아니라면 어떻게 신청하면 되는지 궁금합니다. 좋은 강의 만들어주셔서 감사합니다!
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
수강기한 연장 이벤트 신청 합니다.
안녕하세요 이번에 데이터 엔지니어 직무로 취업을 준비하고 있습니다.데이터 엔지니어가 되기 위해서 여러 강의들을 찾던중에 빅데이터 파이프라인에 대해서 이렇게 자세히 설명해주는 강의는 처음이였습니다. 남은 강의 잘 듣고 데이터 엔지니어가 되기 위해서 열심히 더 공부하도록 하겠습니다.
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
mapreduce 부분에서 job이 실행되지 않습니다.
./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount input output_notice 의 커맨드 실행하면 아래와 같은 로그가 나오고 더이상 실행되지 않습니다. 23/10/04 20:52:13 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 23/10/04 20:52:14 INFO client.RMProxy: Connecting to ResourceManager at /127.0.0.1:8032 23/10/04 20:52:15 INFO input.FileInputFormat: Total input paths to process : 1 23/10/04 20:52:16 INFO mapreduce.JobSubmitter: number of splits:1 23/10/04 20:52:16 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1696420330687_0001 23/10/04 20:52:16 INFO impl.YarnClientImpl: Submitted application application_1696420330687_0001 23/10/04 20:52:17 INFO mapreduce.Job: The url to track the job: http://218.38.137.27:8088/proxy/application_1696420330687_0001/ 23/10/04 20:52:17 INFO mapreduce.Job: Running job: job_1696420330687_0001위 상태에서 그대로 멈춰있습니다. jps 결과값은 아래와 같습니다.80752 NodeManager 80805 RunJar 80996 Jps 68263 NameNode 80663 ResourceManager 15464 68495 SecondaryNameNode 68366 DataNode 혹시 몰라서 리소스매니저(port 8088)의 스크린샷을 첨부하였습니다.아래는 yarn-site.xml입니다. <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>127.0.0.1</value> </property> 해결할 수 있는 방법을 알 수 있을까요?
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
m1 mac에서의 실습환경
안녕하세요! m1 맥북으로 실습을 하려고 합니다.커뮤니티에 전부 window 관련 질문들만 있어 질문드려요 !맥북 사용시에 권장하는 환경 설정 방법을 알려주실수 있을까요? 다른분 질문에 답변으로 docker는 권장하지 않는다고 하셔서 UTM으로 우분투를 설치해보려고 했는데 에러가 계속 발생해서 어려움에 겪고 있습니다 ㅜ (virtual box 는 m1 맥에서 지원이 안되는 상황이구요..)
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
수강신청 프로모션 신청했습니다 ㅎㅎ
예전에 취준생 프로모션으로 현재 수업 잘듣고 있습니다ㅎㅎ 일년기한 연장 프로모션도 연 것 같아 구글설문지에 신청했습니다 10월이면 기한이 종료될 예정이라 연장부탁드립니다~~
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
수강기한 연장 이벤트 신청 합니다.
안녕하세요 강사님~.밑에 수강기한 1년 연장 이벤트 진행한다고 보았는데여기에 써도 되는건지 모르겠는데 괜찮으시다면 연장좀 부탁드리겠습니다.감사합니다~!
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
Hadoop 기본 제공 MapReduce 실행 에러
`bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount input output_notice` 명령으로 wordcount 예제를 실행해보려고 하는데 자꾸만 에러가 납니다. Namenode도 초기화해보고, jps 입력해서 노드들이나 매니저들이 정상적으로 동작하고 있는지, 헬스체크 통해서도 용량이 부족하지는 않는지 확인하고 돌려보는데도 문제가 발생하네요.
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
후속 강의 계획 질문드립니다.
혹시 part2 는 언제쯤 계획하고 계신지그리고 다음 강의는 어떤 강의 준비하고 계신지 궁금합니다!
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
Selenium 실습_chromedriver 에러 문의
안녕하세요 실습1강 팔로우중 문의사항이 생겨 글 드립니다. chrome 과 chrome driver 설치하여 selenium 실행 시, 아래와 같은 에러로 실행이 되지않습니다. 해당 에러를 해결하기위해chrome/chrome-driver 버전 맞춰서 설치selenium 다운그레이드 및 재설치 등 버전별 검토chromedriver 경로: find 명령어 사용하여 조회기타 코드 추가chrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless') ... 어떤 수정이 필요한건지 알 수 있을까요?에러메세지Traceback (most recent call last): File "/home/ian/2023_BIGDATA/5_selenium.py", line 11, in <module> driver = webdriver.Chrome('/home/ian/2023_BIGDATA/chromedriver') File "/home/ian/2023_BIGDATA/venv2023/lib/python3.10/site-packages/selenium/webdriver/chrome/webdriver.py", line 76, in init RemoteWebDriver.__init__( File "/home/ian/2023_BIGDATA/venv2023/lib/python3.10/site-packages/selenium/webdriver/remote/webdriver.py", line 157, in init self.start_session(capabilities, browser_profile) File "/home/ian/2023_BIGDATA/venv2023/lib/python3.10/site-packages/selenium/webdriver/remote/webdriver.py", line 252, in start_session response = self.execute(Command.NEW_SESSION, parameters) File "/home/ian/2023_BIGDATA/venv2023/lib/python3.10/site-packages/selenium/webdriver/remote/webdriver.py", line 321, in execute self.error_handler.check_response(response) File "/home/ian/2023_BIGDATA/venv2023/lib/python3.10/site-packages/selenium/webdriver/remote/errorhandler.py", line 242, in check_response raise exception_class(message, screen, stacktrace)selenium.common.exceptions.WebDriverException: Message: unknown error: Chrome failed to start: exited abnormally. (unknown error: DevToolsActivePort file doesn't exist) (The process started from chrome location /usr/bin/google-chrome is no longer running, so ChromeDriver is assuming that Chrome has crashed.) 실습 코드from selenium.webdriver.common.by import Byfrom selenium import webdriverchrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')chrome_options.add_argument('--no-sandbox')chrome_options.add_argument("--single-process")chrome_options.add_argument("--disable-dev-shm-usage")driver = webdriver.Chrome('/home/ian/2023_BIGDATA/chromedriver')driver.implicitly_wait(2)driver.get('https://www.daum.net/')
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
블로그 코드 기록
안녕하세요실습 1강을 듣고 있는 수강생입니다.오늘 블로그를 개설하여 수업 내용을 기록하였는데요, 제가 실습 코드를 자세하게 서술하는건 아닌지 걱정되어 여쭤보게 되었습니다.게시글 상단에 해당 인프런 강의 링크를 기재하였는데요,데이터 스크래핑데이터 크롤링환경세팅실습 코드 기록하는 것에 대해 의견 주시면 코드 수정하겠습니다!감사합니다.
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
Replica Placement 질문
안녕하세요. 영상 7분 30초 경에 있는 ppt가 Replica Placement 를 설명해주고 있는데요.1번 단계에서 local rack에 replica를 하나 생성한다고 되어있는데 생성 위치가 same node of local rack 인가요? 아니면 different node of local rack 인가요?그림을 보면 same node of local rack 인데, 같은 노드에 replica를 배치하면 어떤 의미가 있나 궁금해서 질문 드립니다.감사합니다.
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
안녕하세요! 블로그 관련 질문드립니다
안녕하세요 강의 열심히 듣고있는 대학생입니다.최근 블로그를 시작하려고 준비 중입니다평소 강의 들으면서 노션에 정리한 내용들을블로그에 게시해도 괜찮을까요? 우선 이론과 실습은 설치 과정만 게시하려고 생각중입니다..!
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
실습 1과 Virtualbox 질문
안녕하세요! 제 OS는 윈도우인데요, 강의 섹션 1을 듣다가 궁금한 점이 있어서 질문을 올리게 되었습니다.강의 소개에 [OS] 우분투 or 리눅스[머신사양]- Aws t2.medium 2 Core 4GB // ec2 free.tier 참석은 가능 - Virtualbox 이용하여 위 OS로 참석가능이라고 안내되어 있는데요, 섹션 1 Data Acquisition [Basic] Crawling and Scraping(Urlib, BS4, Selenuim)을 실습할때부터 virtualbox 설치 후 우분투 환경에서 실습해야되는건지 궁금합니다.즉, 강의(섹션 15개) 중에서 어떤 섹션부터 리눅스와 그 Virtualbox 가 필요한지 궁금합니다! 섹션 1의 이론강의를 본 후 실습영상을 보고 따라하려고 하는데, 이때 윈도우에서도 가능한건지 아니면 지금부터 virtualbox상에서 우분투로 진행해야 되는건지 궁금합니다.감사합니다!
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
colab에 하둡이 설치되어 있는 걸까요?
Colab에 pyspark가 미리 설치되어 있지는 않지만!pip install pyspark명령으로 설치 후 사용 가능하더라구요.Colab에 자바와 하둡, 스파크가 이미 설치되어 있는 것으로 생각해도 될까요? 제가 강의로 이해하기로는하둡에 있는 일부 기능- 맵리듀스를 스파크가 대체할 수 있는데,기존 하둡과 호환성을 위해 다른 부분은 하둡 그대로 두고 그 부분만 스파크로 대체해야 하고그래서 하둡도 필요하고 스파크는 자바로 되어 있으니 자바도 필요하고,스파크 설치 후 이것을 파이썬으로 래핑한 pyspark를 실행하는 것으로그렇게 생각하고 있는데 이게 맞는지 모르겠습니다. SparkContext가 생성되면서 내부적으로 스파크 어플리케이션이 실행되나요? 아니면 데몬같은 것이 실행중인 상태인 걸까요? 너무 모른 채로 질문드려서 죄송합니다.
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
spark_xgboost_lightgbm 강의부분 관련
안녕하세요. 강사님, 수업을 잘 듣고 있습니다! 다름이 아니라 spark_xgboost_lightgbm에서 버전이 바뀌면서앞선 댓글을 통해 SparkXGBClassifier로 수정하여해결은 하였으나, 새로 바뀐 XGB에서는xgb_model.feature_importances 이부분이 나오질 않아서, 혹시 SparkXGBClassifier의 featureImportances를 보려면 어떻게 해야하는지 from mmlspark.lightgbm import LightGBMClassifierimport mlflowlgbm_classifier = LightGBMClassifier(featuresCol="features", labelCol="label", numLeaves=100, maxDepth=10, numIterations=100)lgbm_model = lgbm_classifier.fit(train_sdf)-> 이부분부터 값이 나오질 않습니다.오류메시지org.apache.spark.SparkException: Job aborted due to stage failure: Task 4 in stage 73.0 failed 1 times, most recent failure: Lost task 4.0 in stage 73.0 (TID 285) (ip-번호.us-west-2.compute.internal executor driver): java.lang.NoSuchMethodError: com.microsoft.ml.lightgbm.lightgbmlib.new_doubleArray(J)Lcom/microsoft/ml/lightgbm/SWIGTYPE_p_double;이 두부분에 대해서 문의 드립니다!
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
spark환경에서 데이터 수정에 관하여 질문이 있습니다.
안녕하십니까 수업 잘 수강하고 있습니다!수업을 수강하며 pyspark를 통해 예전에 했던 프로젝트의 데이터를 전처리부터 머신러닝까지 적용해보는 중인데, 전처리 과정에서 데이터를 수정해야 하는 경우에 대하여 질문이 있습니다.spark의 경우 pandas처럼 바꾸고 싶은 컬럼의 값만 바꿀 수 있지가 않고, withColumn을 통해 새로운 컬럼을 만들어내는 형식으로 대체가 가능한걸로 알고 있습니다.단순히 컬럼별로 기준을 정해서 바꾸는 거면 withColumn으로도 가능하지만, 만약 개별 줄마다 값을 변경해야 할 경우 for문을 써서 바꿔야 하는 경우가 있는데, 이렇게 할 경우 제 현재 작업 환경(로컬)이 노드가 하나여서 그런지 Java.lang.OutOfMemoryError이 뜨더군요. 그래서 기존에 하던 pandas에서 하던 것 처럼 하려면, toPandas로 바꿔서 해도 되긴 합니다만.. 그러면 pyspark를 이 단계에서는 굳이 사용해봐야 의미가 없고, 또한 나중에 in-memory에서는 처리를 하기 힘든 큰 데이터의 경우에서는 pandas를 사용하지 못하니 방법이 아예 사라지게 됩니다. 그래서 질문은, 만약 이 경우처럼 세세하게 한줄한줄마다 값을 수정할 필요가 있을 경우, 어떻게 하는 것이 좋을지 궁금합니다. 또, spark dataframe을 toPandas로 변환할 경우 그냥 Pandas dataframe으로 불러오는 것과 차이점이 있는지도 여쭤보고 싶습니다.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
pyspark - collect error
안녕하세요! 좋은 강의 잘 듣고 있습니다.제공해주신 연습 예제부터 차근차근 실습해보고 더 큰 데이터로 학습 해보고자 컬럼수 10개 / 큰 용량의 csv파일로 학습중입니다. 변수만 바꾸고 코드를 동일하고 학습하고 있습니다.코드의 마지막 줄인results = avg_by_count.collect() print(results)이 부분에서 에러가 나서 어떻게 해결해야 하는지 질문드립니다. === 이것저것 검색해보다가 pyspark / python 버전이 안맞으면 에러가 날 수 있다고 보고 버전도 확인해봤습니다.print(sc.version)# 3.3.2print(sc.pythonVer)#3 .10print(sc.master)#local[*] 아래는 에러 전문입니다.1197 sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd()) 1198 return list(_load_from_socket(sock_info, self._jrdd_deserializer)) File /usr/local/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/java_gateway.py:1321, in JavaMember.__call__(self, *args) 1315 command = proto.CALL_COMMAND_NAME +\ 1316 self.command_header +\ 1317 args_command +\ 1318 proto.END_COMMAND_PART 1320 answer = self.gateway_client.send_command(command) -> 1321 return_value = get_return_value( 1322 answer, self.gateway_client, self.target_id, self.name) 1324 for temp_arg in temp_args: 1325 temp_arg._detach() File /usr/local/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/protocol.py:326, in get_return_value(answer, gateway_client, target_id, name) 324 value = OUTPUT_CONVERTER[type](answer[2:], gateway_client) 325 if answer[1] == REFERENCE_TYPE: --> 326 raise Py4JJavaError( 327 "An error occurred while calling {0}{1}{2}.\n". 328 format(target_id, ".", name), value) 329 else: 330 raise Py4JError( 331 "An error occurred while calling {0}{1}{2}. Trace:\n{3}\n". 332 format(target_id, ".", name, value)) Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 10.0 failed 1 times, most recent failure: Lost task 1.0 in stage 10.0 (TID 11) (b4b9f5895184 executor driver): org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 686, in main process() File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 676, in process out_iter = func(split_index, iterator) File "/usr/local/spark/python/pyspark/rdd.py", line 3472, in pipeline_func return func(split, prev_func(split, iterator)) File "/usr/local/spark/python/pyspark/rdd.py", line 3472, in pipeline_func return func(split, prev_func(split, iterator)) File "/usr/local/spark/python/pyspark/rdd.py", line 540, in func return f(iterator) File "/usr/local/spark/python/pyspark/rdd.py", line 2554, in combineLocally merger.mergeValues(iterator) File "/usr/local/spark/python/lib/pyspark.zip/pyspark/shuffle.py", line 253, in mergeValues for k, v in iterator: File "/usr/local/spark/python/lib/pyspark.zip/pyspark/util.py", line 81, in wrapper return f(*args, **kwargs) File "/tmp/ipykernel_35939/1438163465.py", line 11, in parse_line ValueError: invalid literal for int() with base 10: '61.760999927297242' at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.handlePythonException(PythonRunner.scala:552) at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:758) at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:740) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:505) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at scala.collection.Iterator$GroupedIterator.fill(Iterator.scala:1211) at scala.collection.Iterator$GroupedIterator.hasNext(Iterator.scala:1217) at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:460) at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:140) at org.apache.spark.shuffle.ShuffleWriteProcessor.write(ShuffleWriteProcessor.scala:59) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:52) at org.apache.spark.scheduler.Task.run(Task.scala:136) at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:548) at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1504) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:551) at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136) at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635) at java.base/java.lang.Thread.run(Thread.java:833) Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.failJobAndIndependentStages(DAGScheduler.scala:2672) at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2(DAGScheduler.scala:2608) at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2$adapted(DAGScheduler.scala:2607) at scala.collection.mutable.ResizableArray.foreach(ResizableArray.scala:62) at scala.collection.mutable.ResizableArray.foreach$(ResizableArray.scala:55) at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:49) at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:2607) at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1(DAGScheduler.scala:1182) at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1$adapted(DAGScheduler.scala:1182) at scala.Option.foreach(Option.scala:407) at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:1182) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:2860) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2802) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2791) at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:49) at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:952) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2238) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2259) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2278) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2303) at org.apache.spark.rdd.RDD.$anonfun$collect$1(RDD.scala:1021) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112) at org.apache.spark.rdd.RDD.withScope(RDD.scala:406) at org.apache.spark.rdd.RDD.collect(RDD.scala:1020) at org.apache.spark.api.python.PythonRDD$.collectAndServe(PythonRDD.scala:180) at org.apache.spark.api.python.PythonRDD.collectAndServe(PythonRDD.scala) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:77) at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.base/java.lang.reflect.Method.invoke(Method.java:568) at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244) at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357) at py4j.Gateway.invoke(Gateway.java:282) at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) at py4j.commands.CallCommand.execute(CallCommand.java:79) at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182) at py4j.ClientServerConnection.run(ClientServerConnection.java:106) at java.base/java.lang.Thread.run(Thread.java:833) Caused by: org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 686, in main process() File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 676, in process out_iter = func(split_index, iterator) File "/usr/local/spark/python/pyspark/rdd.py", line 3472, in pipeline_func return func(split, prev_func(split, iterator)) File "/usr/local/spark/python/pyspark/rdd.py", line 3472, in pipeline_func return func(split, prev_func(split, iterator)) File "/usr/local/spark/python/pyspark/rdd.py", line 540, in func return f(iterator) File "/usr/local/spark/python/pyspark/rdd.py", line 2554, in combineLocally merger.mergeValues(iterator) File "/usr/local/spark/python/lib/pyspark.zip/pyspark/shuffle.py", line 253, in mergeValues for k, v in iterator: File "/usr/local/spark/python/lib/pyspark.zip/pyspark/util.py", line 81, in wrapper return f(*args, **kwargs) File "/tmp/ipykernel_35939/1438163465.py", line 11, in parse_line ValueError: invalid literal for int() with base 10: '61.760999927297242' at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.handlePythonException(PythonRunner.scala:552) at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:758) at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:740) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:505) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at scala.collection.Iterator$GroupedIterator.fill(Iterator.scala:1211) at scala.collection.Iterator$GroupedIterator.hasNext(Iterator.scala:1217) at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:460) at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:140) at org.apache.spark.shuffle.ShuffleWriteProcessor.write(ShuffleWriteProcessor.scala:59) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:52) at org.apache.spark.scheduler.Task.run(Task.scala:136) at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:548) at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1504) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:551) at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136) at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635) ... 1 more ㅠㅠ혹시 해결방법을 아신다면 답변 부탁드립니다..감사합니다.!!!!
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
스파크로 HDFS 구동하기
안녕하세요~ 대학교 한 학기처럼 탄탄하게 빅데이터 파이프라인 관련해서 차근차근 다뤄주시니 도움이 되고 있습니다. Spark Advanced 과정에서 Spark를 자세히 다루면서 학습하고 있습니다 혹시 과제가 있던데? 데이터를 Data Storage에서 배운 HDFS 위에 적재하고 Spark를 돌리면 너무 좋을 것 같은데 혹시 이 부분에 대해서도 가이드 해주시나요?감사합니다.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
스트리밍 window 관련 질문드립니다.
spark streaming을 설명하시면서 광고로그를 join? 하는걸 예시로 들어주셨는데요, 노출이랑 클릭이랑 interval이 10분~30분 정도가 아니라 7일 이렇게 되는 경우에도 spark streaming으로 처리가 가능한가요?? 궁금합니다.
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
[질문] replication 변경 질문드립니다.
안녕하세요!강의 수강하면서 HDFS 명령어를 구글링하면서 만져보고 있는데요, 강의 실습에서 hdfs-site.xml에서 replication을 1로 설정해서, hdfs setrep 명령어를 사용해 replication configuration 3으로 변경을 시도했다가 잘 되지 않아서 질문드립니다.w 옵션 없이 setrep 3 / 명령어 입력 시에,./bin/hdfs dfs -stat "%b %F %g %n %o %r %u %y %Y" {파일 경로}결과 %r = 3으로 변경이 되는데./bin/hdfs fsck / -files -blocks결과를 확인해보면, Default replication factor가 여전히 1로 나옵니다.Default replication factor를 변경할 수 있는 방법 질문드립니다. 또 기다려도 hdfs에 올린 파일들이 자동으로 복제가 되지 않고 개수가 계속 1이라(fsck 명령어로 상태 확인 시에 missing replicas 확인됨), 강제로 setrep에 w옵션을 사용해서 기다려봤는데, 계속 복제본을 만들지 않는 결과를 확인했습니다.이게 Pseudo Distributed Operation 모드에서 동작을 시켜서 발생시키는 결과인지, 아니면 어떤 부분이 문제일지 질문드립니다.감사합니다.