묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[개념반] 배워서 바로 쓰는 Pandas
join 파트 학습자료
안녕하세요, 판다스 수업 재밌게 잘 듣고 있습니다. 다름이 아니라 join 파트를 수강 중인데요, 해당 파트만 수업자료가 누락되어 있는 것 같아서요. 혹시 따로 올려주실 수 있으실까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 에러
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!세요질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보train = pd.get_dummies(train, columns=cols) test = pd.get_dummies(test, columns=cols) display(train.head(2)) display(test.head(2))KeyError Traceback (most recent call last) <ipython-input-52-5da4ae8d05fa> in <cell line: 0>() 1 # 원핫 인코딩 ----> 2 train = pd.get_dummies(train, columns=cols) 3 test = pd.get_dummies(test, columns=cols) 4 display(train.head(2)) 5 display(test.head(2)) 3 frames/usr/local/lib/python3.11/dist-packages/pandas/core/indexes/base.py in _raise_if_missing(self, key, indexer, axis_name) 6247 if nmissing: 6248 if nmissing == len(indexer): -> 6249 raise KeyError(f"None of [{key}] are in the [{axis_name}]") 6250 6251 not_found = list(ensure_index(key)[missing_mask.nonzero()[0]].unique()) KeyError: "None of [Index(['sex', 'smoker', 'region'], dtype='object')] are in the [columns]"
-
미해결파이썬 알고리즘 트레이딩 파트1: 알고리즘 트레이딩을 위한 파이썬 데이터 분석
VM 생성 시, Size 관련 문의 (quotas)
강의에서 설명해주신 대로 Spot quotas 리밋을 16으로 올리려고 했으나 계속 거부 메시지가 옵니다. 현재 제가 가진 subscription으로는 Spot VM을 16까지 늘릴 수 없다고 합니다. spot의 다른 지역 Korea, Japan, East US 등 다 해봤는데 똑같습니다. 이 때문에 강의에서 보여주신 Standard_D16as_v5 - 16 vCPUs, 64 GiB memory $0.08480/hour 옵션 대신, 훨씬 비용이 높은 Standard_D16as_v5 - 16 vCPUs, 64 GiB memory US$619.04/month 옵션밖에 선택할 수 없습니다. 어떻게 강의와 동일한 VM 환경으로 실습을 진행할 수 있을까요? 일단 Azure의 서포트에 아래와 같은 메시지로 문의를 남겼으나 답변이 매우 늦는 상태입니다:I wanted to increase my spot limit to 16 and then want to create a VM using the 'Standard_D16as_v5 - 16 vCPUs, 64 GiB memory $0.08480/hour' option. However, since this is my first time using it, I'm only seeing the option labeled 'Standard_D16as_v5 - 16 vCPUs, 64 GiB memory US$619.04/month'. Could you please help me resolve this issue? Azure의 Help + support 섹션에서 아래와 같은 응답이 계속 표시됩니다:QMS Update - Status: ResourceType: crpCores { Quota Bucket: TotalLowPriorityCores Status Description: Due to very high rates of Spot consumption, Microsoft is unable to approve additional quota at this time State: SpotVMNotAllowedForPayGCustomer Current Quota: 3 New Quota: 16 } Properties: [location, koreacentral]이 문제를 해결할 방법이나 대체 방안이 있으면 알려주시면 감사하겠습니다. 스크린샷 첨부하였습니다:
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기책 2판 언제쯤 나오나요?
10회 필기 응시 후, 빅분기 시나공 2판 기다리고 있는데 언제쯤 나올까요? 기다리고 있습니다ㅎ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이원분산분석에서 등분산성 만족하지 않을 경우
안녕하세요! 시험과는 조금 무관한 부분일 수 있으나 강의 들으면서 궁금해 문의 드립니다. 만약 levene을 통해서 한 집단이라도 등분산성을 만족시키지 못하는 경우, 어떤 검정을 사용해야 하나요?감사합니다!
-
미해결파이썬 알고리즘 트레이딩 파트1: 알고리즘 트레이딩을 위한 파이썬 데이터 분석
read_html 오류 해결법
sp500 = pd.read_html(url)에서 오류가 나는 경우,pip install lxml해주면 됩니다
-
미해결파이썬 알고리즘 트레이딩 파트1: 알고리즘 트레이딩을 위한 파이썬 데이터 분석
KeyError: 'Adj Close' 해결법
KeyError: 'Adj Close'오류가 나는 이유는, yahoo finance method가 변경되어 Adj Close를 안 가져오기 때문입니다.#기존 df = yf.download(tickers=["AAPL","MSFT","GOOG","AMZN"])["Adj Close"] #고침 df = yf.download(tickers=["AAPL","MSFT","GOOG","AMZN"])["Close"]으로 변경하면, 오류가 해결됩니다.
-
미해결파이썬 알고리즘 트레이딩 파트1: 알고리즘 트레이딩을 위한 파이썬 데이터 분석
nbformat>=4.2.0 해결법
ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed오류가 나오는 경우,pip install ipykernel pip install --upgrade nbformat코드를 돌리고Visual Studio Code 윗쪽에 Restart 버튼을 눌려 Kernel 재시작하면 작동합니다.
-
미해결파이썬을 활용한 머신러닝 딥러닝 입문
scikit-learn이 업데이트 된 건가요?
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. =tree.plottree(clf, feature_names=iris.feature_names, class_names=iris.traget_names, filled=True)이부분에서 iris.target_names을 numpy.ndarray배열로 인식하고 리스트로 인식을 안한다고 해서 에러가 뜹니당...ㅎ scikit=learn이 업데이트 된 거 같아요
-
미해결파이썬 알고리즘 트레이딩 파트1: 알고리즘 트레이딩을 위한 파이썬 데이터 분석
어떻게 로컬머신과 가상머신을 한 화면에서 같이 사용하시나요?
2:10 보면 가상머신 화면 위에 로컬머신 폴더를 띄우셨는데, 어떻게 하셨나요?저는 가상머신을 minimize해야 로컬 머신이 보여서요.그렇다고 가상머신 화면을 축소하면, 글자가 너무 작아지거나 전체 화면이 안 보여서 다루기 힘듭니다.왼쪽에 강의영상, 오른쪽에 코드프로그램을 둬서 보면서 코딩하고 싶은데, 방법이 궁금합니다.
-
미해결파이썬 알고리즘 트레이딩 파트1: 알고리즘 트레이딩을 위한 파이썬 데이터 분석
Region을 왜 Korea Central로 하셨나요?
가장 빠르게 미국 주식 주문하기 위해선, East US가 가장 좋지 않나 싶어서 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Wilcoxon 검정 시 양측 검정?
강의에서 Wilcoxon 검정 시 단측 검정만 나왔는데, 양측 검정은 어떻게 하나요?
-
미해결[리뉴얼] 처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part1]
pandas 라이브러리의 quotechar 인자에 대해 질문드립니다
EDA 기본 패턴 적용을 위한 pandas 관련 문법 활용1(업데이트) 강의에서,pandas 라이브러리로 csv 파일 읽기에 다음과 같은 예문이 나오는데요.doc = pd.read_csv("파일명", encoding="utf-8-sig", quotechar=",")구분자는 delimiter 인자를 사용하는 것으로 알고 있었는데, quotechar를 사용하신 이유가 궁금합니다. delimiter와 quotechar의 차이가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 생성코드 실제 시험환경 문의
# 데이터 생성(먼저 실행해 주세요) import pandas as pd import random random.seed(2022) df = pd.DataFrame() for i in range(0, 5): list_box = [] for k in range(0, 200): ran_num = random.randint(1,200) list_box.append(ran_num) df[i+2000] = list_box df = df.T df.to_csv("data.csv", index=True)이렇게 가장먼저 데이터생성하는 코드가 디폴트값으로 적혀있는데, 실제 빅분기시험에서도 이렇게 첫 스타트를 끊는 부분은 저희가 처음부터 별도로 코딩을 하지않아도되는건가요? 실제 시험에서는 어떻게 진행되는지 궁금하네요... 처음부터 문제 읽자마자 데이터 생성을 하고 시작해야하는건지 아니면 데이터 생성코드가 입력되어있으면 그냥 코드실행바로 누르고 시작하는건지 알려주세요
-
해결됨파이썬 주식 매매 봇으로 주식시장 자동사냥하기
미국 주식 분봉 데이터를 얻기 위한 방법은 없나요?
한국투자증권의 api에서는 해외주식의 경우 1달까지만 분봉 데이터를 제공한다고 나옵니다. 미국 주식 분봉 데이터를 얻기 위한 방법은 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
종자와 비료의 p밸류값
8:42에서 종자의 p밸류값은 7.254117e-10비료의 p밸류값은 1.835039e-03으로 나오는데요.둘다 귀무가설을 기각하여 '토마토수'에 영향을 준다는 사실은 이해를 했습니다. 궁금한 점은 p밸류값이 종자가 비료보다 훨씬 수치가 작은데 그렇다면 '종자'가 '비료'보다 토마토수에 더 영향을 끼친다고 해석해도 괜찮은가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델링및평가(분류) 17:30초 지점 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요모델링및평가(분류) 17:30초 지점에서검증용 데이터 분리를 설명하기에 앞서그 위에 문제2가 있는데문제2가 검증용 데이터분리와 연관되나요.즉, 검증용 데이터분리는 문제1에 연장인지 문제2에 해당하는지를 묻습니다.
-
미해결파이썬 주식 매매 봇으로 주식시장 자동사냥하기
5.1.2 강의내용이 5.1.1 강의내용이랑 중복되는거 아닌가요?
내용이 같은거 아닌가 싶어서요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
CV error
CV를 사용하였는데 하기와 같은 오류가 등장했습니다 : --> 98 raise InvalidParameterError( 99 f"The {param_name!r} parameter of {caller_name} must be" 100 f" {constraints_str}. Got {param_val!r} instead." InvalidParameterError: The 'scoring' parameter of cross_val_score must be a str among {'f1', 'jaccard_micro', 'positive_likelihood_ratio', 'adjusted_rand_score', 'jaccard_weighted', 'homogeneity_score', 'average_precision', 'precision_weighted', 'rand_score', 'roc_auc_ovr', 'roc_auc_ovr_weighted', 'precision', 'explained_variance', 'jaccard_macro', 'recall_macro', 'f1_macro', 'normalized_mutual_info_score', 'precision_samples', 'neg_root_mean_squared_log_error', 'r2', 'neg_negative_likelihood_ratio', 'precision_micro', 'neg_max_error', 'mutual_info_score', 'precision_macro', 'f1_micro', 'v_measure_score', 'completeness_score', 'neg_mean_squared_error', 'accuracy', 'neg_brier_score', 'recall_samples', 'jaccard_samples', 'neg_root_mean_squared_error', 'neg_mean_absolute_percentage_error', 'jaccard', 'f1_samples', 'matthews_corrcoef', 'neg_median_absolute_error', 'neg_mean_gamma_deviance', 'recall_micro', 'neg_mean_absolute_error', 'neg_log_loss', 'roc_auc_ovo_weighted', 'd2_absolute_error_score', 'roc_auc', 'adjusted_mutual_info_score', 'recall', 'recall_weighted', 'balanced_accuracy', 'f1_weighted', 'top_k_accuracy', 'roc_auc_ovo', 'neg_mean_squared_log_error', 'fowlkes_mallows_score', 'neg_mean_poisson_deviance'}, a callable or None. Got 'f1-macro' instead.제가 작성한 코드도 함께 공유 드립니다 : import pandas as pd train=pd.read_csv('train.csv') test=pd.read_csv('test.csv') train=train.drop('ID', axis=1) test_id=test.pop('ID') print(train.shape, test.shape) print(train.head()) print(test.head()) print(train.info()) print(test.info()) print(train.isnull().sum()) print(test.isnull().sum()) y=train.pop('Segmentation') print(y.info(), y.shape) y=y-1 int_cols=train.select_dtypes(exclude='object').columns train[int_cols].corr() cat_cols=train.select_dtypes(include='object').columns print(train[cat_cols].describe(include='object')) print(test[cat_cols].describe(include='object')) for i in cat_cols: train[i]=train[i].astype('object') test[i]=test[i].astype('object') for i in cat_cols: print(train[i].value_counts()) print(test[i].value_counts()) from sklearn.preprocessing import RobustScaler scaler=RobustScaler() for i in int_cols : train[i]=scaler.fit_transform(train[[i]]) test[i]=scaler.transform(test[[i]]) from sklearn.preprocessing import LabelEncoder le=LabelEncoder() for i in cat_cols: train[i]=le.fit_transform(train[i]) test[i]=le.transform(test[i]) print(train.head()) print(test.head()) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val=train_test_split(train, y, test_size=0.2, random_state=2025) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) from sklearn.ensemble import RandomForestClassifier rf=RandomForestClassifier(n_estimators=50, max_depth=7, random_state=2025) rf.fit(X_tr, y_tr) y_pred_rf=rf.predict(X_val) from lightgbm import LGBMClassifier lgbm=LGBMClassifier(random_state=2025) lgbm.fit(X_tr, y_tr) y_pred_lgbm=lgbm.predict(X_val) from xgboost import XGBClassifier xgb=XGBClassifier(random_state=2025) xgb.fit(X_tr, y_tr) y_pred_xgb=xgb.predict(X_val) y_pred_xgb=y_pred_xgb+1 from sklearn.metrics import f1_score print(f1_score(y_val, y_pred_rf, average='macro')) print(f1_score(y_val, y_pred_lgbm, average='macro')) print(f1_score(y_val, y_pred_xgb, average='macro')) from sklearn.model_selection import cross_val_score scores=cross_val_score(rf, train, target, scoring='f1-macro', cv=5) print(scores) print(scores.mean())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
XGBClassifier 사용 에러
XGBClassifier 를 사용해서 target을 분류하려고 하는데, 아래와 같은 에러가 나타납니다 : ValueError: Invalid classes inferred from unique values of y. Expected: [0 1 2 3], got [1 2 3 4]LabelEncoder를 사용해서 processing 도 다 했고, LGBMClassifier랑 RandomForestClassifier는 다 잘 돌아가는데 XGBClassifier만 저런 오류가 나타나네요;;; 참고를 위해 지금까지 작성한 코드 하기로 공유 드립니다 : import pandas as pd train=pd.read_csv('train.csv') test=pd.read_csv('test.csv') train=train.drop('ID', axis=1) test_id=test.pop('ID') print(train.shape, test.shape) print(train.head()) print(test.head()) print(train.info()) print(test.info()) print(train.isnull().sum()) print(test.isnull().sum()) y=train.pop('Segmentation') y=y.astype('object') y=y.astype('category') print(y.info(), y.shape) int_cols=train.select_dtypes(exclude='object').columns train[int_cols].corr() cat_cols=train.select_dtypes(include='object').columns print(train[cat_cols].describe(include='object')) print(test[cat_cols].describe(include='object')) for i in cat_cols: train[i]=train[i].astype('object') test[i]=test[i].astype('object') for i in cat_cols: print(train[i].value_counts()) print(test[i].value_counts()) from sklearn.preprocessing import RobustScaler scaler=RobustScaler() for i in int_cols : train[i]=scaler.fit_transform(train[[i]]) test[i]=scaler.transform(test[[i]]) from sklearn.preprocessing import LabelEncoder le=LabelEncoder() for i in cat_cols: train[i]=le.fit_transform(train[i]) test[i]=le.transform(test[i]) print(train.head()) print(test.head()) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val=train_test_split(train, y, test_size=0.2, random_state=2025) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) y_val=y_val.astype('category') y_tr=y_tr.astype('category') from sklearn.ensemble import RandomForestClassifier rf=RandomForestClassifier(n_estimators=100, max_depth=5, random_state=2025) rf.fit(X_tr, y_tr) y_pred_rf=rf.predict(X_val) from lightgbm import LGBMClassifier lgbm=LGBMClassifier() lgbm.fit(X_tr, y_tr) y_pred_lgbm=lgbm.predict(X_val) from sklearn.metrics import f1_score print(f1_score(y_val, y_pred_rf, average='weighted')) print(f1_score(y_val, y_pred_lgbm, average='weighted')) from xgboost import XGBClassifier xgb=XGBClassifier() xgb.fit(X_tr, y_tr) y_pred_xgb=xgb.predict(X_val)