질문 & 답변 - 인프런 | 커뮤니티

묻고 답해요

169만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

미해결
실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

spark_kafka 실행시 java.lang.IllegalArgumentException 에러

Streaming에서 Kafka 데이타 추출하기 부분 진행하고 있는데요 spark_kafka.py 실행시 에러가 납니다. ㅠ root@81599cbd6b8f:/opt/bitnami/spark/work# spark-submit --master spark://spark:7077 --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.4.1 spark_kafka.py ..... --------------------------------------------------------------------- | | modules || artifacts | | conf | number| search|dwnlded|evicted|| number|dwnlded| --------------------------------------------------------------------- | default | 11 | 11 | 11 | 0 || 11 | 11 | --------------------------------------------------------------------- :: retrieving :: org.apache.spark#spark-submit-parent-8f3a0b4c-b23d-4dfa-b9b0-8649735433fc confs: [default] 11 artifacts copied, 0 already retrieved (56445kB/64ms) 23/11/18 23:57:21 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 23/11/18 23:57:24 WARN ResolveWriteToStream: spark.sql.adaptive.enabled is not supported in streaming DataFrames/Datasets and will be disabled. 23/11/18 23:57:24 WARN OffsetSeqMetadata: Updating the value of conf 'spark.sql.shuffle.partitions' in current session from '3' to '200'. 23/11/18 23:57:24 ERROR MicroBatchExecution: Query [id = 40288f62-daae-4e69-80db-ff6f83156268, runId = 535853f9-9153-44be-8eca-19f75ee8b4ea] terminated with error java.lang.IllegalArgumentException: Expected e.g. {"topicA":{"0":23,"1":-1},"topicB":{"0":-2}}, got {"logOffset":2} at org.apache.spark.sql.kafka010.JsonUtils$.partitionOffsets(JsonUtils.scala:75) at org.apache.spark.sql.kafka010.KafkaMicroBatchStream.deserializeOffset(KafkaMicroBatchStream.scala:216) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$getStartOffset$1(MicroBatchExecution.scala:454) at scala.Option.map(Option.scala:230) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.getStartOffset(MicroBatchExecution.scala:454) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$constructNextBatch$4(MicroBatchExecution.scala:489) at org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken(ProgressReporter.scala:411) at org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken$(ProgressReporter.scala:409) at org.apache.spark.sql.execution.streaming.StreamExecution.reportTimeTaken(StreamExecution.scala:67) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$constructNextBatch$2(MicroBatchExecution.scala:488) at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:286) at scala.collection.Iterator.foreach(Iterator.scala:943) at scala.collection.Iterator.foreach$(Iterator.scala:943) at scala.collection.AbstractIterator.foreach(Iterator.scala:1431) at scala.collection.IterableLike.foreach(IterableLike.scala:74) at scala.collection.IterableLike.foreach$(IterableLike.scala:73) at scala.collection.AbstractIterable.foreach(Iterable.scala:56) at scala.collection.TraversableLike.map(TraversableLike.scala:286) at scala.collection.TraversableLike.map$(TraversableLike.scala:279) at scala.collection.AbstractTraversable.map(Traversable.scala:108) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$constructNextBatch$1(MicroBatchExecution.scala:477) at scala.runtime.java8.JFunction0$mcZ$sp.apply(JFunction0$mcZ$sp.java:23) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.withProgressLocked(MicroBatchExecution.scala:802) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.constructNextBatch(MicroBatchExecution.scala:473) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runActivatedStream$2(MicroBatchExecution.scala:266) at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23) at org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken(ProgressReporter.scala:411) at org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken$(ProgressReporter.scala:409) at org.apache.spark.sql.execution.streaming.StreamExecution.reportTimeTaken(StreamExecution.scala:67) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runActivatedStream$1(MicroBatchExecution.scala:247) at org.apache.spark.sql.execution.streaming.ProcessingTimeExecutor.execute(TriggerExecutor.scala:67) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.runActivatedStream(MicroBatchExecution.scala:237) at org.apache.spark.sql.execution.streaming.StreamExecution.$anonfun$runStream$1(StreamExecution.scala:306) at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23) at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:827) at org.apache.spark.sql.execution.streaming.StreamExecution.org$apache$spark$sql$execution$streaming$StreamExecution$$runStream(StreamExecution.scala:284) at org.apache.spark.sql.execution.streaming.StreamExecution$$anon$1.run(StreamExecution.scala:207) Traceback (most recent call last): File "/opt/bitnami/spark/work/spark_kafka.py", line 38, in <module> query.awaitTermination() File "/opt/bitnami/spark/python/lib/pyspark.zip/pyspark/sql/streaming/query.py", line 201, in awaitTermination File "/opt/bitnami/spark/python/lib/py4j-0.10.9.7-src.zip/py4j/java_gateway.py", line 1322, in __call__ File "/opt/bitnami/spark/python/lib/pyspark.zip/pyspark/errors/exceptions/captured.py", line 175, in deco pyspark.errors.exceptions.captured.StreamingQueryException: [STREAM_FAILED] Query [id = 40288f62-daae-4e69-80db-ff6f83156268, runId = 535853f9-9153-44be-8eca-19f75ee8b4ea] terminated with exception: Expected e.g. {"topicA":{"0":23,"1":-1},"topicB":{"0":-2}}, got {"logOffset":2}

sososo123123 · 2023.11.19 · 실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

투표점수

1

조회수

1.14k

답변

9
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

xgboost 사용 시 오류

xgboost로 학습시킬때 오류가 나오던데요. xgboost는 y값이 숫자형으로 되어있어야 학습이 가능한건지 궁금합니다.해당 문제에는 target 값이 low/high/... 와 같이 str 형식이여서 xgboost가 사용이 불가한건지해서요 :)

hello4298 · 2023.11.19 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

292

답변

1
미해결
[개정판] 파이썬 머신러닝 완벽 가이드

reset_index() 업데이트

판다스 Index객체 이해 강의에서 사용한 예제를 그대로 적용하니 문제가 생겨 질문드립니다reset_index()에 업데이트가 진행되어 칼럼명을 자동으로 바꿔주는 것 같은데 맞나요?value_counts()를 통해 titanic_df['Pclass']의 객체를 얻으면 기존에는 Name:Pclass 로 출력되었던 것 같은데, 이제는 value_counts()를 통해 얻은 모든 객체의 Name이 count로 표기되고 이렇게 name이 count인 객체에 한해 reset_index()를 적용했을 때 칼럼명을 자동으로 적절히 바꾸어주는 것 같습니다

이상현 · 2023.11.19 · [개정판] 파이썬 머신러닝 완벽 가이드

투표점수

0

조회수

294

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

에러메세지와 마주하기

4번째 에러에서 xtrain,ytrain을 합친후 삭제를 하는데 각 데이터의 순서(인덱스 순서?)가 다를듯한데 합친후 삭제를 해도 상관없나요?

옥준호 · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

327

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

시험 환경에서 help 출력시.. 화면 버퍼를 늘이는 방법이 있을까요?

시험환경에서 help를 출력할 때 내용이 길면 처음이 잘려서 보이지 않던데.. 혹시 화면 버퍼를 늘이거나 처음 내용을 볼 수 있는 방법이 있을까요?

몽하 · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

232

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

(체험) 제2유형 업데이트 관련

최근 빅데이터분석기사 실기 체험 사이트에 제2유형 문제가 변경된거 같은데요, 혹시 업데이트도 이루어질 예정일지요? 항상 감사합니다!

ignasio · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

325

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

3회 기출 작업형2 수업 자료 다운로드가 안됩니다

혹시 수업자료 다운로드 버튼이 안눌리는데 방법 잇을까요?

이다영 · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

346

답변

3
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

수업노트에 링크 첨부해 주신다고 했는데, 수업노트가 어디에 있나요?

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요

필주 · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

350

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

정규성을 만족하지 않은 검정

지금까지 정규성을 만족하지 않을 때 사용하신 검정이 Wilcoxon 검정이랑 Mann_whitney U검정이 있는데,두 검정은 단일표본, 대응표본 = Wilcoxon독립표본 = Mann-whiteny U이외의 차이점은 없는건가요?

apollon3110 · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

445

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[섹션5. 평가지표] y_pred

안녕하세요섹션5. 평가지표 부분에 질문 있습니다.강의에서는 clf.predict(X_val) 을 y_pred 값이라고 설명하셨는데y_ture 와 비교하는 y_pred 값은 clf.predict(y_val) 값이 아닌지 의문이 생겨 질문남깁니다.

inflearn · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

311

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

ttest

T-test의 검정통계량은 무슨의미인가요?

apollon3110 · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

292

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

다중회귀분석에서 범주형데이터가있어도 ols 함수에서는 C()묶을필요없다고 하셨었는데

다중회귀분석 강의에서 보면 마지막에 범주형데이터(유형)가 있더라도 ols함수에서는 그냥 그대로 집어넣으면 된다고 하셨었는데이원분산분석강의에서 ols함수쓸때에는 범주형데이터를 C로 묶어야 한다고 하시는데..왜 다른건지 두 차이가 궁금합니다.

dkdlrk101 · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

413

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

Label Encoding 방법에 대한 차이

강의를 듣다보니 범주형 데이터일 때, Label Encoding을 하는 방법이 2가지가 있더라고요from sklearn.preprocessing import LabelEncoderastype('category').cat.codes2가지 경우가 결과물에 어떻게 영향을 미치게 될까요?일단 한 문제로 두 방법으로 인한 roc_auc_score를 검증했을 땐, 유의차가 없었습니다.

스툼 · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

388

답변

1
해결됨
처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]

실제 캐글(Kaggle) 문제 풀고, 제출해보며, 성능 개선 기법 익히기5 강의에서 질문입니다

실제 캐글(Kaggle) 문제 풀고, 제출해보며, 성능 개선 기법 익히기5 강의에서 질문입니다.해당 강의 2:50 부분부터 Evaluation 코드에 관해 설명을 해주셨는데요,with torch.no_grad() 안쪽의 코드에서는 with torch.no_grad(): model.eval() ret = None for img, fileid in data_loader: img = img.to(device) pred = model(img) ids += list(fileid) # ex) [1, 2] + [3, 4] -> [1, 2, 3, 4] if ret is None: ret = pred.cpu().numpy() else: ret = np.vstack([ret, pred.cpu().numpy()]) return ret, ids pred.cpu().numpy()와 같이detach()를 따로 사용하지 않은 걸 볼 수 있었습니다. detach()의 사용에 관해서 찾아보니, with torch.no_grad() 블록은 역전파(gradient 계산)를 비활성화 하므로,pred는 gradient 계산과 관련이 없기에, detach()를 따로 호출하지 않고 numpy 배열로 변환할 수 있다 라는 내용을 찾을 수 있었습니다. 그 전에 수업 시간에 보여주신 코드에서는 model.eval() with torch.no_grad(): for x_minibatch in x_test_batch_list: y_minibatch_pred = model(x_minibatch) print(len(y_minibatch_pred), y_minibatch_pred.shape) y_pred_list.extend(y_minibatch_pred.squeeze().detach().tolist())이와 같이with torch.no_grad() 안에서도 detach()를 사용하신 코드들을 볼 수 있었는데요,Evaluation 단계에서 detach()의 사용이 필수적인 것인지 여쭙고 싶습니다!

vpdtlrdl · 2023.11.18 · 처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]

투표점수

0

조회수

376

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2에서 언제는 분류모델을 써야하고 언제는 회귀모델을 써야할까요?!

보통 작업형2에서는 예측값을 물어보는 문제가 나오던데요.문제가 나올때 어느문제는 분류모델을, 어느문제는 회귀모델을 사용해야하는지 궁금합니다.지금까지 강의+기출문제를 보면서는 분류/회귀를 결정하는 부분이 평가 모델을 통해 진행된다는 느낌을 받았는데요. 1) roc_auc_score, accuracy_score 이 평가모델로 쓰일 경우,분류형 모델 사용(Classifier) 2) rmse, mean_squared_error 이 평가모델로 쓰일 경우,회귀모델 사용(Regressor) 이렇게 생각하면서 작업형2를 접근하는게 맞는지 궁금합니다.

hello4298 · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

379

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 기출문제 3회 질문

# 수치형 데이터와 범주형 데이터 분리 n_train = train.select_dtypes(exclude='object').copy() c_train = train.select_dtypes(include='object').copy() n_test = test.select_dtypes(exclude='object').copy() c_test = test.select_dtypes(include='object').copy() # 수치형 변수 스케일링 (로버스트) from sklearn.preprocessing import RobustScaler scaler = RobustScaler() cols = ['Age', 'AnnualIncome', 'FamilyMembers', 'ChronicDiseases'] display(n_train.head()) n_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = scaler.transform(n_test[cols]) n_train.head() # 범주형 변수 인코딩(원핫 인코딩) display(c_train.head()) c_train = pd.get_dummies(c_train) c_test = pd.get_dummies(c_test) c_train.head() # 분리한 데이터 다시 합침 train = pd.concat([n_train, c_train], axis=1) test = pd.concat([n_test, c_test], axis=1) print(train.shape, test.shape) train.head()수치형/범주형 데이터 분리를 시행하는데,무조건 분리 후 시행해야 하는지 질문드립니다.

고혜빈 · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

232

답변

1
해결됨
실전 인공지능으로 이어지는 딥러닝 개념 잡기

XOR 파트에서 질문 있습니다.

초반에 bias를 열벡터로 표현시다가 강의 6분부터는 행 벡터로 나오는데요 bias에는 Transpose 표기가 되어 있지 않습니다 왜그런지 궁금합니다

kokp · 2023.11.18 · 실전 인공지능으로 이어지는 딥러닝 개념 잡기

투표점수

0

조회수

278

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

cross_val_score를 사용할 때도 train, test 데이터를 나누는게 좋나요?

안녕하세요.cross_val_score를 사용할 때는 model 학습할 때 그냥 모두 학습시키켜도 될 것 같은데요.. 이때도 나누는게 좋을까요?

몽하 · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

224

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

인코딩 질문

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요라벨인코딩 le 선언 관련 질문라벨 인코딩 시에 le를 for문 밖과 안 모두에서 선언하는 이유가 있을까요? 각 col마다 새로운 le로 학습하고 변환해야하나요? 원핫인코딩 시 아래 동작 여부의 이유가 궁급합니다.pd.get_dummies 함수를 사용할 때 c_train과 c_train[cols]를 넣었을 때 1)은 c_train만 동작하고 2)는 둘 다 동작합니다.1) 직접 작성 시, cols를 X_train으로 뽑아냈을 때 오류2) 강의 시, c_train으로 cols 뽑아냈을 때는 동작

허민영 · 2023.11.18 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

329

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

float값

선생님 혹시 컬럼에 float값이 있으면 무조건 민맥스 스케일링 사용하나요?3회는 사용 하셨고 6회 풀이에는 넘어가셨길래 궁금합니다! 그리고 마지막에 제출할때 수험번호 안쓰고 (6회 풀이 입니다)예를 들어 pd.DataFrame({'index':test.index,'y_pred':pred}).to_csv('0000.csv', index=False)요렇게 했는데submit.to_csv('result.csv' , index = False)이렇게 제출하는 형식도 있는건가요?

강샛별 · 2023.11.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

202

답변

1

인기 태그

주간 인기글