묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
색션2 강의 재생 문제
안녕하세요. 섹션2 강의 재생이 안됩니다. 섹션1 강의는 제대로 재생되어 테스트도 해보았는데 섹션2 강의가 재생이 안되네요. 확인 부탁드려요
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
early_stopping_rounds,eval_metric 오류 관련 질문있습니다.
분류 강의 위스콘신 유방암 예측 실습강의 코드입니다.from xgboost import XGBClassifierxgb_wrapper = XGBClassifier(n_estimators=400, learning_rate=0.05, max_depth=3)evals = [(X_tr, y_tr), (X_val, y_val)]xgb_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric="logloss", eval_set=evals, verbose=True)ws50_preds = xgb_wrapper.predict(X_test)ws50_pred_proba = xgb_wrapper.predict_proba(X_test)[:, 1] --------------------------------------------------------------------------- TypeError Traceback (most recent call last) Cell In[36], line 5 3 xgb_wrapper = XGBClassifier(n_estimators=400, learning_rate=0.05, max_depth=3) 4 evals = [(X_tr, y_tr), (X_val, y_val)] ----> 5 xgb_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric="logloss", 6 eval_set=evals, verbose=True) 8 ws50_preds = xgb_wrapper.predict(X_test) 9 ws50_pred_proba = xgb_wrapper.predict_proba(X_test)[:, 1] File ~\anaconda3\Lib\site-packages\xgboost\core.py:726, in require_keyword_args.<locals>.throw_if.<locals>.inner_f(*args, **kwargs) 724 for k, arg in zip(sig.parameters, args): 725 kwargs[k] = arg --> 726 return func(**kwargs) TypeError: XGBClassifier.fit() got an unexpected keyword argument 'early_stopping_rounds'위 코드를 입력하였을때 이러한 오류가 뜨는데 무엇이 원인인지 잘모르겠습니다. Xgboost 버전은 2.1.0이고 파이썬버전같은경우는 3.1.1입니다. 아래는 인터넷에 검색하여 찾아낸 방법으로 입력한 코드입니다from xgboost import XGBClassifierxgb_wrapper=XGBClassifier(n_estimators=400,learning_rate=0.05,max_depth=3,early_stopping_rounds=50,eval_metric="logloss")evals=[(X_tr,y_tr),(X_val,y_val)]xgb_wrapper.fit(X_tr,y_tr, eval_set=evals,verbose=True)ws50_preds=xgb_wrapper.predict(X_test)ws50_pred_proba=xgb_wrapper.predict_proba(X_test)[:,1] 아래는 위 코드에 대한 결과값입니다.오차 행렬 [[35 2] [ 2 75]] 정확도: 0.9649, 정밀도: 0.9740, 재현율: 0.9740, F1: 0.9740, AUC:0.9961 아래는 책에 있는 코드를 입력하였을때의 결과값입니다.오차 행렬 [[35 3] [ 2 75]] 정확도: 0.9561, 정밀도: 0.9615, 재현율: 0.9740, F1: 0.9677, AUC:0.9933 제 생각에는 버전차이에 따른 문제같은데 수정된 코드를 사용하였을때 결과값은 도출되지만 기존 강의에서 사용하신 코드의 결과값과는 다릅니다. 수정된 코드를 그대로 사용하는게 맞을지 아니면 다른 방법이 있는지 궁금합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV 관련 질문
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True, return_train_score=True)grid_dtree.fit(X_train, y_train) 강의에서는 지금까지 정확도를 도출할때 이미 훈련 데이터로 학습된 모델을 통해 X_test 데이터의 예측값을 구하고 이를 실제 y_test 값과 비교하여 일치도를 구하는 방식으로 하였습니다. 하지만 위의 코드에서는 test 데이터 없이 train 데이터만 grid_dtree에 넣었는데 어떻게 파라미터별 정확도를 평가할 수 있는건지 이해가 안갑니다!! GridSearchCV를 통한 파라미터별 정확도는 어떻게 도출되는것인가요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
원-핫 인코딩 get_dummies()질문
안녕하세요 ! import pandas as pd df = pd.DataFrame({'item':['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']}) pd.get_dummies(df) 이렇게 실행하니 0,1값대신 True/False값이 결과로 출력되는데 문제점이 뭔지 모르겠습니다 ㅜ실행결과 사진입니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
섹션2 Grid Search 예제에서 Test data분리시 계층 적용 여부
섹션2의 Grid Search 예제에서 학습/테스트 데이터 분리시 train_test_split()함수에서 stratify옵션없이 사용되었는데요, 계층 분할을 위해 stratify=iris_data.target 옵션을 넣어야 하는거 아닌가요?stratify옵션 넣고 테스트해보니 학습데이터 score는 강의동영상의 점수보다 낮았는데, test data에 대한 스코어는 강의 동영상과 동일하게 나왔습니다.
-
해결됨AB 테스트 실무자 완벽 가이드
여기서 유의수준은 p-value와 동일한가요?
5% 라 나와서 p-value라고 생각했는데 계속 듣고 있으면 그것도 아닌 것 같고, 유의수준은 어떻게 결정되는지도 궁금합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
섹션 1 넘파이 ndarray 인덱싱
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.안녕하세요.마지막 2차원 ndarray 인덱싱 자료화면(11분 경)에서마지막 6번째 인덱싱 결과가 1차원이라고 하셨는데Index 1이 1개, index 0이 2개인 (2,1) 의 2차원으로 봐야 하는 것 아닌지 질문 드립니다
-
해결됨AB 테스트 실무자 완벽 가이드
Pdf자료가 어딨죠
첫 수업만 자료가 있네요
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
xgboost의 n_estimators
xgboost의 모델은 decision tree의 형식을 따르는 걸까요? n_estimators값 만큼의 반복 수행을 하며 decision tree의 가중치를 수정해나가는 방식으로 이해하였는데 맞는지 궁금합니다. 그리고 xgb가 왜 앙상블 기법인지에 대해서도 약간 이해가 잘 안되서 설명 부탁드립니다!
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
섹션3
from sklearn.metrics import precision_recall_curve# 실제값 데이터 셋과 레이블 값이 1일 때의 예측 확률을 precision_recall_curve 인자로 입력 precisions, recalls, thresholds = precision_recall_curve(y_test, pred_proba_class1 )print('반환된 분류 결정 임곗값 배열의 Shape:', thresholds.shape)print('반환된 precisions 배열의 Shape:', precisions.shape)print('반환된 recalls 배열의 Shape:', recalls.shape)print('thresholds 5 sample:', thresholds[:5])print('precisions 5 sample:', precisions[:5])print('recalls 5 sample:', recalls[:5]) precision_recall_curve 함수를 이용해 precisions, recalls, thresholds 값을 반환받는 과정입니다.여기서 thresholds의 개수가 precisions, recalls보다 1개 더 적게 나오는 이유가 궁금합니다.위에서 개수 차이로 인해 thresholds값에 따른 precisions, recalls값들이 대응되지 않는 위치에 존재하지 않나요?print('thresholds 5 sample:', thresholds[:5])print('precisions 5 sample:', precisions[1:6])print('recalls 5 sample:', recalls[1:6])이렇게 하는게 옳다 생각했는데 제 생각이 잘못되었는지 궁금합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
강의자료
안녕하세요좋은 강의 열심히 듣고 있습니다.설명해주시는 PPT 자료는 받아볼 수 있는지요 ?
-
미해결데이터 사이언스 입문자를 위한 파이썬 및 통계
공지
강좌 운영이나 강의 내용에 관해 궁금한 점이 있으면 자유롭게 나누어주세요.교수자, 수강생 누구나 글쓰기와 댓글 쓰기가 가능합니다.
-
해결됨파이썬 알고리즘 트레이딩 파트1: 알고리즘 트레이딩을 위한 파이썬 데이터 분석
변동성이 너무 크면, 통계적으로 접근하기 어려운 데이터가 되는 이유
안녕하세요 수업 너무 잘 듣고 있습니다.수업중에 "변동성이 너무 크면, 통계적으로 접근하기 어려운 데이터가 된다"는 말씀을 주셨는데 왜 그런지 직관적으로 이해가 되지 않아서 질문드립니다.변동성이 너무 큰 상황에서도 많은 반복을 하면 예상하는 margin을 기대할 수 있는 것이 아닌가 싶은 생각이 들기도 합니다.설명 기다리겠습니다. 감사합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
5장회귀 p.368 log1p()함수에 대해서
선생님 안녕하세요,개정1판도, 개정 2판도 교재를 구매해서공부하고 강의듣고 있습니다. 그런데 두 책에서 log1p()함수에 관해 1+log(x) 라고 설명하고 계시는데 log(x+1)값이 아닐런지요? 그래서 이것을 역함수로 하는 함수는 exp1m()이 아니라 expm1() 되는거고 이름을 지정하는 원칙도 함수의 모양을 따라 지정한 것 같아요1+x값을 로그에 넣고, 역함수를 만드는것은 e^(x)-1이라서 1p ->m1이런식으로..한게 아닐런지.. 제 생각이 잘못되었는지 궁금합니다
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
5장 회귀: 보스턴주택가격예측 seaborn.regplot()그래프관련 질문입니다
선생님 안녕하세요 개정2판으로 책과 함께 다시 강의를 듣고있습니다 5장 회귀p.325에서 단순회귀그래프를 그리는데 맨 마지막의 그래프가 나오지 않으면서 범주형변수의 order관련해서 typeError 를 보이고 있습니다.일단, 보스턴 주택가격 데이터는사이킷런에서 삭제되어서 다른방식으로 로딩해서 만들었습니다. 시본그래프가 왜ax= axs[row][col] 부분에서 마지막객체가 비어있는데 왜그럴까요?더운여름 건강 조심하시고, 정말 훌륭한 강의 감사드립니다. boston_1 = datasets.fetch_openml('boston', return_X_y= True) bostonDF = boston_1[0] bostonDF['PRICE'] = boston_1[1]
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
fraud일때만 이상치를 제거하는 이유가 어느부분에 나오는지 궁금합니다
fraud일때만 이상치를 제거하는 이유에 대해서 강의중에 나중에 말씀해주신다고 하셨는데 그대로 신용카드 사기실습 강의가 끝나서 질문남깁니다!강의 어느파트로 가면 해당 부분을 설명들을수 있을까요?(현재 강의진도를 그대로 따라가는데에 어려움을 겪어 부분부분 듣고있는 상태입니다)
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
PCA 강의 질문 관련 문의
안녕하세요. 귀한 강의 잘 듣고 있습니다 감사합니다!다름이 아니라 PCA 관련하여 'PCA의 이해' 강의에서, 데이터 변동성이 가장 큰 방향으로 축을 생성하고 데이터를 그 축에 사영한다고 해주셨는데요.혹시 그럼 데이터의 사영 방향이 축(키-몸무게 축)에 직교하는 형태로 사영하는 것이 아닌가요?! 제가 이해한 바랑 그림이 조금 달라서 여쭤보게 되었습니다 ㅎㅎ감사합니다!
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
베이지안 최적화 search space
안녕하세요! 강의 잘 보고 있습니다. 베이지안 최적화 할 때, Search Space에 들어가는 초기값? 같은 것 어떻게 설정하는 것인가요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
5.6 실습코드 오류질문
이렇게 nan으로 다 뜨는데 이유가 무엇일까요.. 이렇게 에러가 뜹니다. 참고로 주신 코드 그대로 돌렸습니다ㅠ
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
linear regression 과 PCA, p_value 질문
선생님 안녕하세요좋은 강의 감사합니다. linear regression(statsmodel)에 PCA를 적용하여 test 데이터로 예측하는 경우에 질문이 있습니다. 예를 들어, 기존의 20개의 피쳐 --> PCA를 통해 10개의 새로운 피쳐(x1~x10)를 추출했다고 가정하고,이 중에 statsmodel로 linear regression 을 돌렸는데, 이 중 x6, x7, x8 의 p_value 가 0.05 이상이어서 유의미한 피쳐가 아니라고 볼 수 있는 상황입니다. 그러면 test 데이터(valid 데이터 아님)를 가지고 실제로 예측을 해야 하는 상황에서는, test 데이터를 가지고 PCA를 돌려서 10개의 새로운 피쳐를 추출그 중에 x1~x5, x9, x10 --> 7개의 피쳐를 추출하고, train 데이터에서 나온 7개의 coef 를 가지고 만들어진 선형 모델로 예측 수행을 하면 되는 것이 맞나요? 제가 궁금한 것은 PCA를 사용하여 나온 피쳐 중 일부만을 사용하는 경우에도, train 을 통해 나온 coef 를 pca로 변환한 test 데이터에 사용할 수 있는지 여부 입니다. 감사합니다.