묻고 답해요
160만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실험 환경에서도 작업형 2 점수 확인 할 수 있나요 ?
y_test = pd.read_csv("y_test.csv") print(roc_auc_score(y_test, pred[:,1])) 해당 코드로 점수 확인 해 볼 수 있나요 ?
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 작업형 3유형 질문드립니다!
ols 를 사용하는 포인트? 이유를 어디서 알 수 있는걸까요??
 - 
      
        
    미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
spark_kafka 실행시 java.lang.IllegalArgumentException 에러
Streaming에서 Kafka 데이타 추출하기 부분 진행하고 있는데요 spark_kafka.py 실행시 에러가 납니다. ㅠ root@81599cbd6b8f:/opt/bitnami/spark/work# spark-submit --master spark://spark:7077 --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.4.1 spark_kafka.py ..... --------------------------------------------------------------------- | | modules || artifacts | | conf | number| search|dwnlded|evicted|| number|dwnlded| --------------------------------------------------------------------- | default | 11 | 11 | 11 | 0 || 11 | 11 | --------------------------------------------------------------------- :: retrieving :: org.apache.spark#spark-submit-parent-8f3a0b4c-b23d-4dfa-b9b0-8649735433fc confs: [default] 11 artifacts copied, 0 already retrieved (56445kB/64ms) 23/11/18 23:57:21 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 23/11/18 23:57:24 WARN ResolveWriteToStream: spark.sql.adaptive.enabled is not supported in streaming DataFrames/Datasets and will be disabled. 23/11/18 23:57:24 WARN OffsetSeqMetadata: Updating the value of conf 'spark.sql.shuffle.partitions' in current session from '3' to '200'. 23/11/18 23:57:24 ERROR MicroBatchExecution: Query [id = 40288f62-daae-4e69-80db-ff6f83156268, runId = 535853f9-9153-44be-8eca-19f75ee8b4ea] terminated with error java.lang.IllegalArgumentException: Expected e.g. {"topicA":{"0":23,"1":-1},"topicB":{"0":-2}}, got {"logOffset":2} at org.apache.spark.sql.kafka010.JsonUtils$.partitionOffsets(JsonUtils.scala:75) at org.apache.spark.sql.kafka010.KafkaMicroBatchStream.deserializeOffset(KafkaMicroBatchStream.scala:216) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$getStartOffset$1(MicroBatchExecution.scala:454) at scala.Option.map(Option.scala:230) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.getStartOffset(MicroBatchExecution.scala:454) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$constructNextBatch$4(MicroBatchExecution.scala:489) at org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken(ProgressReporter.scala:411) at org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken$(ProgressReporter.scala:409) at org.apache.spark.sql.execution.streaming.StreamExecution.reportTimeTaken(StreamExecution.scala:67) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$constructNextBatch$2(MicroBatchExecution.scala:488) at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:286) at scala.collection.Iterator.foreach(Iterator.scala:943) at scala.collection.Iterator.foreach$(Iterator.scala:943) at scala.collection.AbstractIterator.foreach(Iterator.scala:1431) at scala.collection.IterableLike.foreach(IterableLike.scala:74) at scala.collection.IterableLike.foreach$(IterableLike.scala:73) at scala.collection.AbstractIterable.foreach(Iterable.scala:56) at scala.collection.TraversableLike.map(TraversableLike.scala:286) at scala.collection.TraversableLike.map$(TraversableLike.scala:279) at scala.collection.AbstractTraversable.map(Traversable.scala:108) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$constructNextBatch$1(MicroBatchExecution.scala:477) at scala.runtime.java8.JFunction0$mcZ$sp.apply(JFunction0$mcZ$sp.java:23) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.withProgressLocked(MicroBatchExecution.scala:802) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.constructNextBatch(MicroBatchExecution.scala:473) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runActivatedStream$2(MicroBatchExecution.scala:266) at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23) at org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken(ProgressReporter.scala:411) at org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken$(ProgressReporter.scala:409) at org.apache.spark.sql.execution.streaming.StreamExecution.reportTimeTaken(StreamExecution.scala:67) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runActivatedStream$1(MicroBatchExecution.scala:247) at org.apache.spark.sql.execution.streaming.ProcessingTimeExecutor.execute(TriggerExecutor.scala:67) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.runActivatedStream(MicroBatchExecution.scala:237) at org.apache.spark.sql.execution.streaming.StreamExecution.$anonfun$runStream$1(StreamExecution.scala:306) at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23) at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:827) at org.apache.spark.sql.execution.streaming.StreamExecution.org$apache$spark$sql$execution$streaming$StreamExecution$$runStream(StreamExecution.scala:284) at org.apache.spark.sql.execution.streaming.StreamExecution$$anon$1.run(StreamExecution.scala:207) Traceback (most recent call last): File "/opt/bitnami/spark/work/spark_kafka.py", line 38, in <module> query.awaitTermination() File "/opt/bitnami/spark/python/lib/pyspark.zip/pyspark/sql/streaming/query.py", line 201, in awaitTermination File "/opt/bitnami/spark/python/lib/py4j-0.10.9.7-src.zip/py4j/java_gateway.py", line 1322, in __call__ File "/opt/bitnami/spark/python/lib/pyspark.zip/pyspark/errors/exceptions/captured.py", line 175, in deco pyspark.errors.exceptions.captured.StreamingQueryException: [STREAM_FAILED] Query [id = 40288f62-daae-4e69-80db-ff6f83156268, runId = 535853f9-9153-44be-8eca-19f75ee8b4ea] terminated with exception: Expected e.g. {"topicA":{"0":23,"1":-1},"topicB":{"0":-2}}, got {"logOffset":2}
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
xgboost 사용 시 오류
xgboost로 학습시킬때 오류가 나오던데요. xgboost는 y값이 숫자형으로 되어있어야 학습이 가능한건지 궁금합니다.해당 문제에는 target 값이 low/high/... 와 같이 str 형식이여서 xgboost가 사용이 불가한건지해서요 :)
 - 
      
        
    미해결[개정판] 파이썬 머신러닝 완벽 가이드
reset_index() 업데이트
판다스 Index객체 이해 강의에서 사용한 예제를 그대로 적용하니 문제가 생겨 질문드립니다reset_index()에 업데이트가 진행되어 칼럼명을 자동으로 바꿔주는 것 같은데 맞나요?value_counts()를 통해 titanic_df['Pclass']의 객체를 얻으면 기존에는 Name:Pclass 로 출력되었던 것 같은데, 이제는 value_counts()를 통해 얻은 모든 객체의 Name이 count로 표기되고 이렇게 name이 count인 객체에 한해 reset_index()를 적용했을 때 칼럼명을 자동으로 적절히 바꾸어주는 것 같습니다
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에러메세지와 마주하기
4번째 에러에서 xtrain,ytrain을 합친후 삭제를 하는데 각 데이터의 순서(인덱스 순서?)가 다를듯한데 합친후 삭제를 해도 상관없나요?
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 환경에서 help 출력시.. 화면 버퍼를 늘이는 방법이 있을까요?
시험환경에서 help를 출력할 때 내용이 길면 처음이 잘려서 보이지 않던데.. 혹시 화면 버퍼를 늘이거나 처음 내용을 볼 수 있는 방법이 있을까요?
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
(체험) 제2유형 업데이트 관련
최근 빅데이터분석기사 실기 체험 사이트에 제2유형 문제가 변경된거 같은데요, 혹시 업데이트도 이루어질 예정일지요? 항상 감사합니다!
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출 작업형2 수업 자료 다운로드가 안됩니다
혹시 수업자료 다운로드 버튼이 안눌리는데 방법 잇을까요?
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수업노트에 링크 첨부해 주신다고 했는데, 수업노트가 어디에 있나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
정규성을 만족하지 않은 검정
지금까지 정규성을 만족하지 않을 때 사용하신 검정이 Wilcoxon 검정이랑 Mann_whitney U검정이 있는데,두 검정은 단일표본, 대응표본 = Wilcoxon독립표본 = Mann-whiteny U이외의 차이점은 없는건가요?
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[섹션5. 평가지표] y_pred
안녕하세요섹션5. 평가지표 부분에 질문 있습니다.강의에서는 clf.predict(X_val) 을 y_pred 값이라고 설명하셨는데y_ture 와 비교하는 y_pred 값은 clf.predict(y_val) 값이 아닌지 의문이 생겨 질문남깁니다.
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ttest
T-test의 검정통계량은 무슨의미인가요?
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중회귀분석에서 범주형데이터가있어도 ols 함수에서는 C()묶을필요없다고 하셨었는데
다중회귀분석 강의에서 보면 마지막에 범주형데이터(유형)가 있더라도 ols함수에서는 그냥 그대로 집어넣으면 된다고 하셨었는데이원분산분석강의에서 ols함수쓸때에는 범주형데이터를 C로 묶어야 한다고 하시는데..왜 다른건지 두 차이가 궁금합니다.
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Label Encoding 방법에 대한 차이
강의를 듣다보니 범주형 데이터일 때, Label Encoding을 하는 방법이 2가지가 있더라고요from sklearn.preprocessing import LabelEncoderastype('category').cat.codes2가지 경우가 결과물에 어떻게 영향을 미치게 될까요?일단 한 문제로 두 방법으로 인한 roc_auc_score를 검증했을 땐, 유의차가 없었습니다.
 - 
      
        
    해결됨처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
실제 캐글(Kaggle) 문제 풀고, 제출해보며, 성능 개선 기법 익히기5 강의에서 질문입니다
실제 캐글(Kaggle) 문제 풀고, 제출해보며, 성능 개선 기법 익히기5 강의에서 질문입니다.해당 강의 2:50 부분부터 Evaluation 코드에 관해 설명을 해주셨는데요,with torch.no_grad() 안쪽의 코드에서는 with torch.no_grad(): model.eval() ret = None for img, fileid in data_loader: img = img.to(device) pred = model(img) ids += list(fileid) # ex) [1, 2] + [3, 4] -> [1, 2, 3, 4] if ret is None: ret = pred.cpu().numpy() else: ret = np.vstack([ret, pred.cpu().numpy()]) return ret, ids pred.cpu().numpy()와 같이detach()를 따로 사용하지 않은 걸 볼 수 있었습니다. detach()의 사용에 관해서 찾아보니, with torch.no_grad() 블록은 역전파(gradient 계산)를 비활성화 하므로,pred는 gradient 계산과 관련이 없기에, detach()를 따로 호출하지 않고 numpy 배열로 변환할 수 있다 라는 내용을 찾을 수 있었습니다. 그 전에 수업 시간에 보여주신 코드에서는 model.eval() with torch.no_grad(): for x_minibatch in x_test_batch_list: y_minibatch_pred = model(x_minibatch) print(len(y_minibatch_pred), y_minibatch_pred.shape) y_pred_list.extend(y_minibatch_pred.squeeze().detach().tolist())이와 같이with torch.no_grad() 안에서도 detach()를 사용하신 코드들을 볼 수 있었는데요,Evaluation 단계에서 detach()의 사용이 필수적인 것인지 여쭙고 싶습니다!
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2에서 언제는 분류모델을 써야하고 언제는 회귀모델을 써야할까요?!
보통 작업형2에서는 예측값을 물어보는 문제가 나오던데요.문제가 나올때 어느문제는 분류모델을, 어느문제는 회귀모델을 사용해야하는지 궁금합니다.지금까지 강의+기출문제를 보면서는 분류/회귀를 결정하는 부분이 평가 모델을 통해 진행된다는 느낌을 받았는데요. 1) roc_auc_score, accuracy_score 이 평가모델로 쓰일 경우,분류형 모델 사용(Classifier) 2) rmse, mean_squared_error 이 평가모델로 쓰일 경우,회귀모델 사용(Regressor) 이렇게 생각하면서 작업형2를 접근하는게 맞는지 궁금합니다.
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 기출문제 3회 질문
# 수치형 데이터와 범주형 데이터 분리 n_train = train.select_dtypes(exclude='object').copy() c_train = train.select_dtypes(include='object').copy() n_test = test.select_dtypes(exclude='object').copy() c_test = test.select_dtypes(include='object').copy() # 수치형 변수 스케일링 (로버스트) from sklearn.preprocessing import RobustScaler scaler = RobustScaler() cols = ['Age', 'AnnualIncome', 'FamilyMembers', 'ChronicDiseases'] display(n_train.head()) n_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = scaler.transform(n_test[cols]) n_train.head() # 범주형 변수 인코딩(원핫 인코딩) display(c_train.head()) c_train = pd.get_dummies(c_train) c_test = pd.get_dummies(c_test) c_train.head() # 분리한 데이터 다시 합침 train = pd.concat([n_train, c_train], axis=1) test = pd.concat([n_test, c_test], axis=1) print(train.shape, test.shape) train.head()수치형/범주형 데이터 분리를 시행하는데,무조건 분리 후 시행해야 하는지 질문드립니다.
 - 
      
        
    해결됨실전 인공지능으로 이어지는 딥러닝 개념 잡기
XOR 파트에서 질문 있습니다.
초반에 bias를 열벡터로 표현시다가 강의 6분부터는 행 벡터로 나오는데요 bias에는 Transpose 표기가 되어 있지 않습니다 왜그런지 궁금합니다
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cross_val_score를 사용할 때도 train, test 데이터를 나누는게 좋나요?
안녕하세요.cross_val_score를 사용할 때는 model 학습할 때 그냥 모두 학습시키켜도 될 것 같은데요.. 이때도 나누는게 좋을까요?