묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델링 및 평가(분류) 11:07
submit = pd.DataFrame({ 'income': pred })문제가 성인 인구 조사 소득 예측(분류문제) 인데 submit = pd.DataFrame( { 'id':X_test['id'], 'income':pred } )2번처럼 id를 꼭 적어줘야 하나요? income만 적으면 안되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 답안 제출 관련
안녕하세요 강사님!예시문제 중 작업형 3유형의 4번문제가 아래와 같이 나와 있고,풀이를 해보면 검정통계량은 -3.34, p-value는 0.0006이 나와서예시 문제에서 요구하는 유의수준 0.05 이하 이므로 귀무가설을 기각 / 대립가설 채택 하는 결과가 나오는데, 귀무가설 기준으로 답을 적어야 하는지, 아니면 대립가설을 기준으로 답안을 적어야 하는지 궁금하여 문의드립니다. (귀무가설 기준으로는 답이 기각이고, 대립가설은 답이 채택)
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
pyspark - collect error
안녕하세요! 좋은 강의 잘 듣고 있습니다.제공해주신 연습 예제부터 차근차근 실습해보고 더 큰 데이터로 학습 해보고자 컬럼수 10개 / 큰 용량의 csv파일로 학습중입니다. 변수만 바꾸고 코드를 동일하고 학습하고 있습니다.코드의 마지막 줄인results = avg_by_count.collect() print(results)이 부분에서 에러가 나서 어떻게 해결해야 하는지 질문드립니다. === 이것저것 검색해보다가 pyspark / python 버전이 안맞으면 에러가 날 수 있다고 보고 버전도 확인해봤습니다.print(sc.version)# 3.3.2print(sc.pythonVer)#3 .10print(sc.master)#local[*] 아래는 에러 전문입니다.1197 sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd()) 1198 return list(_load_from_socket(sock_info, self._jrdd_deserializer)) File /usr/local/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/java_gateway.py:1321, in JavaMember.__call__(self, *args) 1315 command = proto.CALL_COMMAND_NAME +\ 1316 self.command_header +\ 1317 args_command +\ 1318 proto.END_COMMAND_PART 1320 answer = self.gateway_client.send_command(command) -> 1321 return_value = get_return_value( 1322 answer, self.gateway_client, self.target_id, self.name) 1324 for temp_arg in temp_args: 1325 temp_arg._detach() File /usr/local/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/protocol.py:326, in get_return_value(answer, gateway_client, target_id, name) 324 value = OUTPUT_CONVERTER[type](answer[2:], gateway_client) 325 if answer[1] == REFERENCE_TYPE: --> 326 raise Py4JJavaError( 327 "An error occurred while calling {0}{1}{2}.\n". 328 format(target_id, ".", name), value) 329 else: 330 raise Py4JError( 331 "An error occurred while calling {0}{1}{2}. Trace:\n{3}\n". 332 format(target_id, ".", name, value)) Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 10.0 failed 1 times, most recent failure: Lost task 1.0 in stage 10.0 (TID 11) (b4b9f5895184 executor driver): org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 686, in main process() File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 676, in process out_iter = func(split_index, iterator) File "/usr/local/spark/python/pyspark/rdd.py", line 3472, in pipeline_func return func(split, prev_func(split, iterator)) File "/usr/local/spark/python/pyspark/rdd.py", line 3472, in pipeline_func return func(split, prev_func(split, iterator)) File "/usr/local/spark/python/pyspark/rdd.py", line 540, in func return f(iterator) File "/usr/local/spark/python/pyspark/rdd.py", line 2554, in combineLocally merger.mergeValues(iterator) File "/usr/local/spark/python/lib/pyspark.zip/pyspark/shuffle.py", line 253, in mergeValues for k, v in iterator: File "/usr/local/spark/python/lib/pyspark.zip/pyspark/util.py", line 81, in wrapper return f(*args, **kwargs) File "/tmp/ipykernel_35939/1438163465.py", line 11, in parse_line ValueError: invalid literal for int() with base 10: '61.760999927297242' at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.handlePythonException(PythonRunner.scala:552) at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:758) at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:740) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:505) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at scala.collection.Iterator$GroupedIterator.fill(Iterator.scala:1211) at scala.collection.Iterator$GroupedIterator.hasNext(Iterator.scala:1217) at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:460) at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:140) at org.apache.spark.shuffle.ShuffleWriteProcessor.write(ShuffleWriteProcessor.scala:59) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:52) at org.apache.spark.scheduler.Task.run(Task.scala:136) at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:548) at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1504) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:551) at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136) at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635) at java.base/java.lang.Thread.run(Thread.java:833) Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.failJobAndIndependentStages(DAGScheduler.scala:2672) at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2(DAGScheduler.scala:2608) at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2$adapted(DAGScheduler.scala:2607) at scala.collection.mutable.ResizableArray.foreach(ResizableArray.scala:62) at scala.collection.mutable.ResizableArray.foreach$(ResizableArray.scala:55) at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:49) at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:2607) at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1(DAGScheduler.scala:1182) at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1$adapted(DAGScheduler.scala:1182) at scala.Option.foreach(Option.scala:407) at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:1182) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:2860) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2802) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2791) at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:49) at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:952) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2238) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2259) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2278) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2303) at org.apache.spark.rdd.RDD.$anonfun$collect$1(RDD.scala:1021) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112) at org.apache.spark.rdd.RDD.withScope(RDD.scala:406) at org.apache.spark.rdd.RDD.collect(RDD.scala:1020) at org.apache.spark.api.python.PythonRDD$.collectAndServe(PythonRDD.scala:180) at org.apache.spark.api.python.PythonRDD.collectAndServe(PythonRDD.scala) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:77) at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.base/java.lang.reflect.Method.invoke(Method.java:568) at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244) at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357) at py4j.Gateway.invoke(Gateway.java:282) at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) at py4j.commands.CallCommand.execute(CallCommand.java:79) at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182) at py4j.ClientServerConnection.run(ClientServerConnection.java:106) at java.base/java.lang.Thread.run(Thread.java:833) Caused by: org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 686, in main process() File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 676, in process out_iter = func(split_index, iterator) File "/usr/local/spark/python/pyspark/rdd.py", line 3472, in pipeline_func return func(split, prev_func(split, iterator)) File "/usr/local/spark/python/pyspark/rdd.py", line 3472, in pipeline_func return func(split, prev_func(split, iterator)) File "/usr/local/spark/python/pyspark/rdd.py", line 540, in func return f(iterator) File "/usr/local/spark/python/pyspark/rdd.py", line 2554, in combineLocally merger.mergeValues(iterator) File "/usr/local/spark/python/lib/pyspark.zip/pyspark/shuffle.py", line 253, in mergeValues for k, v in iterator: File "/usr/local/spark/python/lib/pyspark.zip/pyspark/util.py", line 81, in wrapper return f(*args, **kwargs) File "/tmp/ipykernel_35939/1438163465.py", line 11, in parse_line ValueError: invalid literal for int() with base 10: '61.760999927297242' at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.handlePythonException(PythonRunner.scala:552) at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:758) at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:740) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:505) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at scala.collection.Iterator$GroupedIterator.fill(Iterator.scala:1211) at scala.collection.Iterator$GroupedIterator.hasNext(Iterator.scala:1217) at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:460) at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:140) at org.apache.spark.shuffle.ShuffleWriteProcessor.write(ShuffleWriteProcessor.scala:59) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:52) at org.apache.spark.scheduler.Task.run(Task.scala:136) at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:548) at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1504) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:551) at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136) at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635) ... 1 more ㅠㅠ혹시 해결방법을 아신다면 답변 부탁드립니다..감사합니다.!!!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문있습니다.
라벨 인코더 실행할 때나, 스케일러 실행할 때,X_train 에서는 fit_transform 함수를 사용하고X_test 에서는 transform 함수를 사용하는데,무슨 차이가 있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 문제5번 데이터의 수
작업형1 모의문제2 문제5번 데이터의 수를 구하면sum함수가 아닌, len함수를 사용해야하는 것아닌지 궁금합니다.실제 시험에서 데이터수를 구할 때 len을 써야할지 sum을 써야할지 구분 기준 질문드립니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형2) 5:16초 수치형 변수 스케일링
3회 기출유형(작업형2) 수치형 변수 스케일링 RobustScaler에 대한 강의 내용은 없어서, 혹시 민맥스나 스탠다드로 스케일링한 코드 공유가 가능할까요 ? 민맥스로 혼자 돌려보려고 30분째 씨름하는데도 에러가 떠서 질문드립니다 !
-
미해결15일간의 빅데이터 파일럿 프로젝트
filezilla 전송 오
filezilla 전송 부분에서 오류가 뜹니다.예제소스에 읽기 전용 계속 해제해도 노트북에서 제한하는 것 같습니다.읽기 전용 해제 하면 체크표시는 해제되나 - 표시로 계속 남아 있어요 여기 속성 통해서 모든 권한 허용으로 변경했는데 아직 동일한 오류 뜹니다 ㅠㅠ
-
미해결15일간의 빅데이터 파일럿 프로젝트
가상 머신 Server01의 세션을 열 수 없습니다 오류
virtual box 6.1.0 버전을 사용하고 있습니다.강의에 사용하신 버전은 제 노트북에서 오류가 뜨고 원래는 조금 더 높은 버전이었으나 가상 server01, 02 추가 자체가 되지 않아 해당 버전으로 다시 설치했었습니다. 참고로, Fasoo DRM 이 다운되어 있지 않고CPU VT 활성화를 해야하나해서 확인해봤더니 제 노트북이 삼성인데 BIOS에서 해당 설정값 변경이 불가능하게 되있습니다. 어떻게 오류 고치면 될까요ㅜㅜ확장팩 설치로도 오류가 안고쳐졌습니다...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc_score 코드에서 에러 발생해요..
안녕하세요. 모델링 및 평가(분류) 강의에서 마지막 부분에 roc_auc_score 넣어주는 부분에서 자꾸 에러가 발생합니다.에러는 아래와 같이 뜨는데요, 어떤 부분에서 잘못됐는지 알려주세요.."IndexError: index 1 is out of bounds for axis 1 with size 1"감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 유형 2 전처리할 떄 id 삭제하는 이유가 뭔지 궁금합니다.
작업형 유형 2 전처리할 떄 id 삭제하는 이유가 뭔지 궁금합니다.# id 삭제함 (단 test의 id값은 csv파일을 생성할 때 필요함으로 옮겨 놓음) X_train=X_train.drop(['cust_id'], axis=1) cust_id=X_test.pop('cust_id')만약 id값을 삭제하지 않고 실행해도 문제가 없을까요?실제 시험에서 어떤 값을 삭제하고 test에서 pop해야하는 지 판단 기준이 궁금합니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 결측치 처리 기준
작업형2 모의문제2에서결측치를 컬럼을 삭제하는데 결측치 컬럼을 삭제하는 기준이 있을까요?언제 결측치를 채워야하고 삭제해야하는지 잘 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의고사 3 풀이 질문
안녕하세요!섹션 5. "작업형1" 과 구슬 게임의 <작업형1 모의고사 3> 강의의 아래 문제풀이 중강사님 풀이 방법과 같이 첫번째 조건(cond1)과 두번째 조건(cond2)의 값을 각각 r1, r2로 받지 않고,cond1 과 cond2의 or 조건으로 한 번에 출력하고, True 값을 sum 하면 왜 결과값이 왜 달라지는지 이해가 안 되어 문의드립니다. (아래 코드 참고 부탁드립니다)답 : 192 (저의 풀이대로 하면 결과값 : 150) 문제7index '2001' 데이터(행)의 평균보다 큰 값의 수와index '2003' 데이터(행)의 평균보다 작은 값의 수를 더하시오 강사님 풀이# 풀이 df = pd.read_csv("data.csv", index_col="Unnamed: 0") m2001 = df.loc[2001].mean() cond = df.loc[2001] > m2001 r1 = sum(cond) # 100 m2003 = df.loc[2003].mean() cond = df.loc[2003] < m2003 r2 = sum(cond) # 92 print(r1+r2) # 결과값 192 제 코드# 풀이 df = pd.read_csv("data.csv", index_col="Unnamed: 0") m2001 = df.loc[2001].mean() cond1 = df.loc[2001] > m2001 m2003 = df.loc[2003].mean() cond2 = df.loc[2003] < m2003 sum(cond1|cond2) # 결과값 150
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
조건 & 연산자 질문!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!16:11 초에 보면 남성중에 0과 1 여성중에 0과 1코드를 똑같이 쳤는데 0,0 으로 나옵니다 ㅜㅜ조건을 따로 만들고 밑에서 & 연산자로 할때 한번씩 인식이 안되는 경우가 있던데 왜그러는 걸까요~??시험장에서도 이 부분때문에 고생한적이 있어서 쉬운거지만 질문드려보아요!! len(train[cond0&cond_male]), len(train[cond1&cond_male])len(train[cond0 & cond_female]), len(train[cond1 & cond_female])
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
스파크로 HDFS 구동하기
안녕하세요~ 대학교 한 학기처럼 탄탄하게 빅데이터 파이프라인 관련해서 차근차근 다뤄주시니 도움이 되고 있습니다. Spark Advanced 과정에서 Spark를 자세히 다루면서 학습하고 있습니다 혹시 과제가 있던데? 데이터를 Data Storage에서 배운 HDFS 위에 적재하고 Spark를 돌리면 너무 좋을 것 같은데 혹시 이 부분에 대해서도 가이드 해주시나요?감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출유형 4회(작업형2) 관련 질문
기출유형 4회(작업형2) 의 첨부 데이터는 어디에서 다운 받아야 하는가요?그리고 평가는 "Macro f1-score'로 한다고 되어 있는데 기존 분류 문제에서처럼 데이터를 분할하여 모델링후 평가를 실시하는 것은 하지 않는 건가요?(X_tr, X_val, y_tr, y_val 로 분리해서 모델링하고 평가한후에 test 데이터로 예측할 수 없는 건지요?)
-
미해결[핵집] 2025 빅데이터 분석기사(필기)_과목 1~2
통합강의안 요청
안녕하세요. 통합강의안 받아보고싶습니다.각챕터별로 받기가 좀 힘드네요..themisist@naver.com입니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님~! 혹시 강의자료 PPT 파일은 어디서 받나요?
강의자료 PPT 제본으로 교재 만들고 싶어서요^^
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
스트리밍 window 관련 질문드립니다.
spark streaming을 설명하시면서 광고로그를 join? 하는걸 예시로 들어주셨는데요, 노출이랑 클릭이랑 interval이 10분~30분 정도가 아니라 7일 이렇게 되는 경우에도 spark streaming으로 처리가 가능한가요?? 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 질문
5회 기출유형(작업형2)에서 수치형+범주형 활용에서원-핫 인코딩을 실시하실때 범주형 컬럼을 'cols'에 담아 범주형만 실시해야 되는게 아닌가요?선생님 코딩에는 전체 컬럼을 대상으로 원-핫 인코딩을 하는 게 아닌가요?train = pd.get_dummis(train) 가 아닌cols = [범주형 변수들....]train[cols] = pd.get_dummis(train[cols]) 가 맞는 게 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 관련 강의 자료
캐글 관련 강의 자료 마지막에 강의해주신 '작업형1예상문제'와'작업형2예상문제'는 어디에서 확인하나요?캐글에서 "Big Data Certification KR' 에서 확인하나요? 어디에서 찾는지 확인을 할 수 었습니다.