묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결15일간의 빅데이터 파일럿 프로젝트
하이브쿼리에서 에러가 나요...
-
미해결15일간의 빅데이터 파일럿 프로젝트
하이브쿼리에서 에러
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델링및평가(분류) 17:30초 지점 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요모델링및평가(분류) 17:30초 지점에서검증용 데이터 분리를 설명하기에 앞서그 위에 문제2가 있는데문제2가 검증용 데이터분리와 연관되나요.즉, 검증용 데이터분리는 문제1에 연장인지 문제2에 해당하는지를 묻습니다.
-
미해결[핵집] 2025 빅데이터 분석기사(필기)_과목 1~2
강의 교안
안녕하세요 강의 통합 자료 요청 드립니다. anaglory@naver.com 입니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
Hbase에 적재된 데이터 확인시 에러
APi오류가 뜹니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
CV error
CV를 사용하였는데 하기와 같은 오류가 등장했습니다 : --> 98 raise InvalidParameterError( 99 f"The {param_name!r} parameter of {caller_name} must be" 100 f" {constraints_str}. Got {param_val!r} instead." InvalidParameterError: The 'scoring' parameter of cross_val_score must be a str among {'f1', 'jaccard_micro', 'positive_likelihood_ratio', 'adjusted_rand_score', 'jaccard_weighted', 'homogeneity_score', 'average_precision', 'precision_weighted', 'rand_score', 'roc_auc_ovr', 'roc_auc_ovr_weighted', 'precision', 'explained_variance', 'jaccard_macro', 'recall_macro', 'f1_macro', 'normalized_mutual_info_score', 'precision_samples', 'neg_root_mean_squared_log_error', 'r2', 'neg_negative_likelihood_ratio', 'precision_micro', 'neg_max_error', 'mutual_info_score', 'precision_macro', 'f1_micro', 'v_measure_score', 'completeness_score', 'neg_mean_squared_error', 'accuracy', 'neg_brier_score', 'recall_samples', 'jaccard_samples', 'neg_root_mean_squared_error', 'neg_mean_absolute_percentage_error', 'jaccard', 'f1_samples', 'matthews_corrcoef', 'neg_median_absolute_error', 'neg_mean_gamma_deviance', 'recall_micro', 'neg_mean_absolute_error', 'neg_log_loss', 'roc_auc_ovo_weighted', 'd2_absolute_error_score', 'roc_auc', 'adjusted_mutual_info_score', 'recall', 'recall_weighted', 'balanced_accuracy', 'f1_weighted', 'top_k_accuracy', 'roc_auc_ovo', 'neg_mean_squared_log_error', 'fowlkes_mallows_score', 'neg_mean_poisson_deviance'}, a callable or None. Got 'f1-macro' instead.제가 작성한 코드도 함께 공유 드립니다 : import pandas as pd train=pd.read_csv('train.csv') test=pd.read_csv('test.csv') train=train.drop('ID', axis=1) test_id=test.pop('ID') print(train.shape, test.shape) print(train.head()) print(test.head()) print(train.info()) print(test.info()) print(train.isnull().sum()) print(test.isnull().sum()) y=train.pop('Segmentation') print(y.info(), y.shape) y=y-1 int_cols=train.select_dtypes(exclude='object').columns train[int_cols].corr() cat_cols=train.select_dtypes(include='object').columns print(train[cat_cols].describe(include='object')) print(test[cat_cols].describe(include='object')) for i in cat_cols: train[i]=train[i].astype('object') test[i]=test[i].astype('object') for i in cat_cols: print(train[i].value_counts()) print(test[i].value_counts()) from sklearn.preprocessing import RobustScaler scaler=RobustScaler() for i in int_cols : train[i]=scaler.fit_transform(train[[i]]) test[i]=scaler.transform(test[[i]]) from sklearn.preprocessing import LabelEncoder le=LabelEncoder() for i in cat_cols: train[i]=le.fit_transform(train[i]) test[i]=le.transform(test[i]) print(train.head()) print(test.head()) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val=train_test_split(train, y, test_size=0.2, random_state=2025) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) from sklearn.ensemble import RandomForestClassifier rf=RandomForestClassifier(n_estimators=50, max_depth=7, random_state=2025) rf.fit(X_tr, y_tr) y_pred_rf=rf.predict(X_val) from lightgbm import LGBMClassifier lgbm=LGBMClassifier(random_state=2025) lgbm.fit(X_tr, y_tr) y_pred_lgbm=lgbm.predict(X_val) from xgboost import XGBClassifier xgb=XGBClassifier(random_state=2025) xgb.fit(X_tr, y_tr) y_pred_xgb=xgb.predict(X_val) y_pred_xgb=y_pred_xgb+1 from sklearn.metrics import f1_score print(f1_score(y_val, y_pred_rf, average='macro')) print(f1_score(y_val, y_pred_lgbm, average='macro')) print(f1_score(y_val, y_pred_xgb, average='macro')) from sklearn.model_selection import cross_val_score scores=cross_val_score(rf, train, target, scoring='f1-macro', cv=5) print(scores) print(scores.mean())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
XGBClassifier 사용 에러
XGBClassifier 를 사용해서 target을 분류하려고 하는데, 아래와 같은 에러가 나타납니다 : ValueError: Invalid classes inferred from unique values of y. Expected: [0 1 2 3], got [1 2 3 4]LabelEncoder를 사용해서 processing 도 다 했고, LGBMClassifier랑 RandomForestClassifier는 다 잘 돌아가는데 XGBClassifier만 저런 오류가 나타나네요;;; 참고를 위해 지금까지 작성한 코드 하기로 공유 드립니다 : import pandas as pd train=pd.read_csv('train.csv') test=pd.read_csv('test.csv') train=train.drop('ID', axis=1) test_id=test.pop('ID') print(train.shape, test.shape) print(train.head()) print(test.head()) print(train.info()) print(test.info()) print(train.isnull().sum()) print(test.isnull().sum()) y=train.pop('Segmentation') y=y.astype('object') y=y.astype('category') print(y.info(), y.shape) int_cols=train.select_dtypes(exclude='object').columns train[int_cols].corr() cat_cols=train.select_dtypes(include='object').columns print(train[cat_cols].describe(include='object')) print(test[cat_cols].describe(include='object')) for i in cat_cols: train[i]=train[i].astype('object') test[i]=test[i].astype('object') for i in cat_cols: print(train[i].value_counts()) print(test[i].value_counts()) from sklearn.preprocessing import RobustScaler scaler=RobustScaler() for i in int_cols : train[i]=scaler.fit_transform(train[[i]]) test[i]=scaler.transform(test[[i]]) from sklearn.preprocessing import LabelEncoder le=LabelEncoder() for i in cat_cols: train[i]=le.fit_transform(train[i]) test[i]=le.transform(test[i]) print(train.head()) print(test.head()) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val=train_test_split(train, y, test_size=0.2, random_state=2025) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) y_val=y_val.astype('category') y_tr=y_tr.astype('category') from sklearn.ensemble import RandomForestClassifier rf=RandomForestClassifier(n_estimators=100, max_depth=5, random_state=2025) rf.fit(X_tr, y_tr) y_pred_rf=rf.predict(X_val) from lightgbm import LGBMClassifier lgbm=LGBMClassifier() lgbm.fit(X_tr, y_tr) y_pred_lgbm=lgbm.predict(X_val) from sklearn.metrics import f1_score print(f1_score(y_val, y_pred_rf, average='weighted')) print(f1_score(y_val, y_pred_lgbm, average='weighted')) from xgboost import XGBClassifier xgb=XGBClassifier() xgb.fit(X_tr, y_tr) y_pred_xgb=xgb.predict(X_val)
-
미해결15일간의 빅데이터 파일럿 프로젝트
파이썬 설치 시 에러
Error: Cannot find a valid baseurl for repo: centos-sclo-rh파이썬 설치 시 계속 에러가 뜹니다.미러설정도 했습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
model fit 할 때 unknown label 오류
강의에서 나온 내용 중 pd.get_dummies를 제외하고 동일하게 했는데 RandomForestClassifier로 모델링을 하려고 하니 아래와 같은 오류가 나타납니다 : Unknown label type: unknown. Maybe you are trying to fit a classifier, which expects discrete classes on a regression target with continuous values.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 분리하기 문의드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요라이브러리 및 데이터불러오기 20분지점 주어진 데이터 분리하기 train=pd.read_csv("train.csv")test=pd.read_csv("test.csv") 가 주어졌습니다. 이게 어느 단계에서의 작업이며, 데이터를 왜 분리하는지, 어떤 데이터를 분리하는지에 대해 전반적인 설명이 없어서 지금의 학습과정을 이해할 수 없습니다.train과 test가 주어졌다면 타겟레이블을 생성하는 과정이 아닐까 추측해 봤지만,여기서는 income을 삭제했는데 왜 삭제했는지이해가 안 갑니다. 설명을 바랍니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
redis-cli 데이터 적재 확인
HBase에 적재까지는 확인했는데 redis에는 아무것도 안뜹니다...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
가독성을 높이는 임시변수명 정하는 방법 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1 모의고사 풀어보기 6분 38초 지점 문의입니다. 위에서 2번의 a는 “data1-2.csv”를 저장하기 위해 생성한 아무 의미 없는 임시변수인지. 종전에 df로 저정하던 것을 a로 바꾼 이유가 있는지. 어떤 의미를 지니는지. 여기서는 (1)data1-2.csv의 데이터프레임을 의미한다고 보고 5번에 a는 “data1-2.csv”에서 임의로 선택한 ['s1','s2','s3','s4','s5','s6'] 컬럼명만 저장한 즉 (2)data1-2.csv에서 -> ['s1','s2','s3','s4','s5','s6'] 컬럼명만 남긴 결과값을 담은 임시변수명인지. 그럼 (1)과 (2)의 의미가 다른데 임시변수명 a로 동일하여 혼란스러워 가독성 문제도 야기되어 보입니다. 이어서 6번 (3)a=a[cols]에서 변수 a는 5번값 a['s1','s2','s3','s4','s5','s6'] 컬럼명을 담은 a와 무엇이 다른지? 같은 의미가 아닌지. 질문은 원데이터에서 1차 가공 후 2차 데이터를 뽑고 2차 데이터에서 3차 가공 후 3차 데이터를 뽑는다면 처음과 마지막에 저장하는 변수를 동일하게 할 것인가 달리 할 것인가. 무엇이 가독성이 좋은가에 관한 질문 같습니다. 일단 이러든 저러든 상관 없는 것이라면무엇이 가독성이 좋은 변수 저장 방식인지 여쭤봅니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cols 변수 문의 드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1 모의고사 풀어보기 6분 지점에서 cols 변수에 대해서도 단순한 임시 변수가 아닌 일부 조건을 담은 변수인 경우에는 구분해서 설명이 되면 좋겠어요. 적어도 자신이 임의로 만든 변수와 외부에서 일정 조건을 포함한 변수를 가져다 쓰는 경우에는 이를 구분해줄 필요가 있습니다. 아니 구분해줘야 한다고 생각을 합니다. 이게 결과값을 저장하기 위해 임시로 폴더명을 정한 건지, 이미 고정된 의미를 가진 파일 명을 포함하고 있는건지 구분을 못하면 개념을 이해 못하고 있는 것이 됩니다. 전자에 해당한다고 판단하여 cols 라는 이름을 따라서 쓰지 않고 임의로 바꿀 경우에는 학습자가 혼란스러워지겠죠.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cond에 대한 개념 정리를 부탁드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1 모의고사 풀어보기 3분지점에서 cond를 설명하셨는데요 변수?라고 하면서 동시에 조건문?이라고도 하셨어요. 2가지 의미에 대한 정리된 개념을 듣지 못했습니다.cond라는 것이 변수고 함수( )는 아니지만 조건식을 만드는 함수의 성격도 동시에 지닌 것인지 여부가 궁금합니다. cond=a['target']==0 지점을 놓고 보면cond는 위치상 결과값을 담기 위한 임시변수에 해당하지만 "설명"에서는 조건을 준다고~ 설명을 하여 이 코드를 작성하는 목적이 1) 저장하는 행위인지 2) 조건식을 부여하기 위한 것인지 3) 둘 다의 의미를 동시에 포함하고 있는지... 개념의 중첩현상으로 해석이 모호합니다. 뒤의 a[cond]와 a=a[cond]를 보면 cond가 임시변수임에는 맞는 것 같습니다.정리를 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Print 코드
시험칠때에는 모든 부분에 print를 써야 하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Timedelta 질문입니다
영상에서 나오는 100일째의 경우days=99를 사용하셨는데100일 이후 이면days=100으로 쓰면 되는 거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3의 문제 7번 3:30초지점 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1 모의문제3의 문제 7번 3:30초지점(문제) index "2001" 데이터(행)의 평균보다 큰 값의 수와 index 2003 데이터(행)의 평균보다 작은 값의 수를 더하시오.문제를 보면 하단에 2001이 아닌 2003이 들어가야 하지 않나요? 검토 및 설명을 바랍니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
카프카 토픽 생성에서 에러
25/02/26 18:11:20 INFO zookeeper.ZooKeeper: Session: 0x0 closed25/02/26 18:11:20 INFO zookeeper.ClientCnxn: EventThread shut down25/02/26 18:11:20 INFO zookeeper.ZooKeeperClient: [ZooKeeperClient] Closed.Exception in thread "main" kafka.zookeeper.ZooKeeperClientTimeoutException: Timed out waiting for connection while in state: CONNECTING at kafka.zookeeper.ZooKeeperClient$$anonfun$kafka$zookeeper$ZooKeeperClient$$waitUntilConnected$1.apply$mcV$sp(ZooKeeperClient.scala:242) at kafka.zookeeper.ZooKeeperClient$$anonfun$kafka$zookeeper$ZooKeeperClient$$waitUntilConnected$1.apply(ZooKeeperClient.scala:238) at kafka.zookeeper.ZooKeeperClient$$anonfun$kafka$zookeeper$ZooKeeperClient$$waitUntilConnected$1.apply(ZooKeeperClient.scala:238) at kafka.utils.CoreUtils$.inLock(CoreUtils.scala:251) at kafka.zookeeper.ZooKeeperClient.kafka$zookeeper$ZooKeeperClient$$waitUntilConnected(ZooKeeperClient.scala:238) at kafka.zookeeper.ZooKeeperClient.<init>(ZooKeeperClient.scala:96) at kafka.zk.KafkaZkClient$.apply(KafkaZkClient.scala:1824) at kafka.admin.TopicCommand$ZookeeperTopicService$.apply(TopicCommand.scala:262) at kafka.admin.TopicCommand$.main(TopicCommand.scala:53) at kafka.admin.TopicCommand.main(TopicCommand.scala)카프카 토픽생성에서 이런 에러가 뜹니다...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
axis=0, axis=1 개념 정리했습니다. 검토바랍니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 작업형1 모의고사2 2분지점 문제4에서 정리했습니다. axis=0 (기본값) → 행을 따라 연산, 열을 기준으로 결과 반환sum(axis=0): 각 열(Column)의 합계 계산count(axis=0): 각 열별 NaN 제외 개수 반환drop(axis=0): 행(Row) 삭제 axis=1 → 열을 따라 연산, 행을 기준으로 결과 반환sum(axis=1): 각 행(Row)의 합계 계산count(axis=1): 각 행별 NaN 제외 개수 반환drop(axis=1): 열(Column) 삭제연산(sum, count 등)은 axis=0이면 열 기준, axis=1이면 행 기준으로 수행되고, 반면에 삭제(drop)는 반대로 axis=0이면 행 삭제, axis=1이면 열 삭제가 됩니다. 이 내용이 맞는지 검토 바랍니다.맞다면 (sum, count 등)과 달리 삭제(drop)시에는 반대로 적용되는지가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
axis=0, axis=1의 정확한 워딩 문의드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 작업형1 모의고사2 2분지점 문제4에서object컬럼을 삭제할 때 축 axis=1로 하라고 했는데. 여기서 axis=1은 object 행을 삭제한 건가요? object 열을 삭제한 건가요? 그 전에 axis=0은 열을 기준으로 하고, axis=1은 행을 기준으로 한다. 강의 시 이 둘의 개념을 의식적으로 구분하지 않고 워딩하셔서 이 경우 해석이 뒤죽박죽 입니다. 정리해보면 axis=0은 열을 기준으로 하고, axis=1은 행을 기준으로 한다는 것은 맞는데표에서 "object 컬럼을 없앨 경우 워딩은 object(컬럼:열)을 삭제한다고 하지 않고, object(컬럼)의 전체 행 데이터가 삭제되는 것"이니 "object 행 삭제"라고 부른다?이렇게 되는 건가요? 정확한 워딩을 부탁드립니다.