월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
여러 샘플마다의 데이터 편차를 수학적으로 정규화할 수 있나요?
안녕하세요. 이물 검사를 하고 있는데, 클래스가 3가지 정도가 있습니다 훈련하고, 모델을 가지고 추론했을 때 score_map이라는 것을 출력으로 갖게 됩니다. 그런데 클래스에 따라서 출력되는 score_map의 범위가 다르게 됩니다. 일단은 score_map의 출력 과정을 수정하기 보다는 후처리를 잘 해보려고 하는데 문제는 score_map을 찍어보면 위에서 말씀드릴 것처럼 출력 범위가 7, 18 등 범위가 클래스마다 다르게 됩니다 물론 이를 각 score_map 행마다 표준화를 시킨 다음에 roc_auc로 threshold를 구한 후 마스킹을 하는데, 현재 마스크 threshold는 4가 됩니다 그런데 클래스 마다 표준편차가 차이나다보니까 표준화를 해도 (평균, 분산은 각각 0과 1) 2번째 히트맵에 그려진 에러는 잡지 못하더라구요. 최대 픽셀값이 4정도 됩니다 그래서 곰곰이 생각해보니 결국엔 각 클래스마다 편차가 다르다보니 threshold에 문제가 생겨가지고요. 혹시 편차를 정규화 시킬 수 있나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
score(X_train, Y_train) 이부분 이해가 ㅠㅠ
logreg = LogisticRegression() logreg.fit(X_train, Y_train) Y_pred = logreg.predict(X_test) logreg.score(X_train, Y_train) which gives: 0.80471380471380471 I use to use this method instead to determine my model accuracy: from sklearn.metrics import classification_report logreg = LogisticRegression() logreg.fit(X_train, Y_train) y_pred = logreg.predict(X_test) print(classification_report(y_test, y_pred)) 선생님 score(X_train, Y_train)이부분이 이해가 가질 않습니다ㅠㅠ 어떻게 y_test없이 train세트만으로 정확도 측정이 가능한거죠?? 혼자 알려고해도 알수가 없네요ㅠ 자세한 답변 부탁드리겠습니다!!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
lambda 함수를 제외하고 get_category 함수를 적용하는 방법에 대해 알고싶습니다.
강의 코드에 나와있는 titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x)) 람다함수를 이용해 get_category 함수를 적용하는 방법 외에 다른 방법이 없을까 생각하여 get_category에 곧바로 titanic_df['Age']로 인자를 넣었더니 The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all(). 라는 에러가 뜹니다. 해당 에러가 어떠한 것이 잘못되어 나타나는 것인지, 람다함수를 사용않고 다른 방법으로 titanic_df["Age_cat] 칼럼을 만들려면 코드를 어떻게 짜야할지 알고싶습니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
pred 의 음주예측값에 대한 rmsle
1. pred 값을 살펴보면 음수인 값이 다수 있는 것으로 확인이 되는데, 이 값을 그대로 rmsle 함수에 넣으면 nan 이 나와야 정상아닌가요?? 음수가 포함된 array 를 넣으면 nan이 나오는데, bike_sharing 실습시에는 정상적으로 산출이 되네요 2. def rmsle(test, pred): log_test = np.log1p(test) log_pred = np.log1p(pred) rmsle = np.sqrt(mean_squared_error(log_test, log_pred)) return rmsle 이런 식으로 rmsle 를 정의하면 안되나요? nan 이슈로 에러가 뜹니다만.... 이유를 잘 모르겠네요 ㅜ 음수를 다루는 방식의 차이인 것 같은데 설명부탁드립니다!!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
이미지에서의 roc_auc_score에 대해서 질문이 있습니다
안녕하세요. 테스트해보고 있는 mask가 2개가 있습니다 예측 마스크와 실제 ground_truth인데, roc_auc_score로 측정하게 되는데, 약 0.986정도 나옵니다 저런 사진이 여러 장 있는데, 오검 미검이 많은데도 잘 나오는 이유가 무엇일까요? fpr, tpr, _ = roc_curve(gt_mask.flatten(), scores.flatten()) per_pixel_rocauc = roc_auc_score(gt_mask.flatten(), scores.flatten())
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
get_dummies와 fillna에 대해서 질문이 있습니다
안녕하세요 데이터 전처리할 때 문자열 컬럼에 대해서는 get_dummies를 적용해서 one-hot을 하면 NaN 값까지 처리되는 것 같은데, 그러면 fillna을 따로 안해도 되는 것인가요? 아니면 get_dummies 전에 fillna를 하는 것이 좋나요 (크게 상관은 없을 것 같은데)? 감사합니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
Bayesian Opt 관련 질문
auc score 에 초점을 맞춰서인지 f1 score를 측정해보니, 거의 0에 가까운 값이 되었습니다. ㅠ 실제로는 못쓰는 모델이겠죠? 캐글에 제출해보려 했는데 캐글이 제공해주는 test data에 대해서 4개 빼고 전부 0이라 예측하더라구요 ㅜ
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
오류 문의
1. 피처별 상관도를 시각화하는 과정에서 사용된 아래의 코딩에서 오류가 나고 있습니다. plt.figure(figsize=(9, 9)) corr = card_df.corr() sns.heatmap(corr, camp='RdBu') 결과 : AttributeError: 'QuadMesh' object has no property 'camp' 아래와 같이 camp를 제거하고 실행하면 오류없이 수행이 되기는 합니다. plt.figure(figsize=(9, 9)) corr = card_df.corr() sns.heatmap(corr) 구글링을 해도 해당 오류에 대한 것을 찾을 수가 없어서 파라미터를 제거한 것인데 버전이 업그레이드 되면서 camp라는 속성이 사라진 건가요? 아니면 다른 패키지의 설치가 더 필요한 것일까요? 2. pip install -U imbalanced-learn 설치 후 from imblearn.over_sampling import SMOTE smote = SMOTE(random_state=0) X_train_over, y_train_over = smote.fit_sample(X_train, y_train) 위와 같이 실행하면 'SMOTE' object has no attribute 'fit_sample' 라는 오류가 나옵니다. from imblearn.over_sampling import SMOTE smote = SMOTE(random_state=0) X_train_over, y_train_over = smote.fit_resample(X_train, y_train) 로 실행하면 수행이 되는데 문제가 없을까요? 버전 문제일수 있다고 해서 pip install -U scikit-learn 도 수행을 했는데 문제가 해결되지는 않고 있습니다. fit_sample() 함수 대신 fit_resampe()를 사용해도 되는 것일까요? 테스트 환경은 아나콘다가 아니고 윈도우에 파이썬을 설치후 vscode에서 작업을 하고 있습니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
Feature importance 질문
모델에서 feature importance가 가장높은 변수는 단지 해당 모델에서 target을 결정하는 중요한 변수인것 이라고 하셨는데 예를들어 서로다른 모델5개에서 각각 feature importance를 구하고 sorting했을때 importance가 가장높은변수가 5개의 모델에서 모두 같다면 해당변수가 target값을 결정하는데 가장 중요한 변수라고 말할수 있나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
연속형데이터가 아닌 범주형데이터일때 치우친데이터에 대한 처리
모델을 만든뒤에 모델정확도를 올리기위해 feature importance를 보고 가장 변수중요도가 높은 변수의 분포를 살펴보고 skew되어있으면 log변환을 하라고 배웠습니다. 근데 이때 해당 분포가 연속형데이터가 아닌 범주형데이터일때는 이 치우친 데이터를 어떻게 처리해야될까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
공분산들의 평균에 대해서 궁금한 점이 있습니다
안녕하세요 여러 배치들의 공분산을 구하려고 했는데, 대상은 이미지의 피처맵입니다 (메모리 문제 때문에 분리해서 진행) 예를 들어 전체 배치가 100이라고 하면 (25, 25, 25, 25)로 나눠서 각각 np.cov 함수로 공분산을 구했는데 마지막에 합칠 때는 단순하게 더해서 /4를 했습니다 그런데 결과도 이상하게 나오고 실제 100 전체를 했을 때랑 값 차이도 있는데 배치 100개를 한 번에 못봐서 그런 것인지 아니면 제가 합칠 때 잘못 하는건지 궁금하네요
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
xgboost 설치 관련 문의
안녕하세요 py-xgboost 설치를 하려 하는데 계속 에러가 나서 설치가 되지 않습니다. 혹시 파이썬 3.8 환경이라서 그런 걸까요? 이럴 경우 어떻게 해결할 수 있을지 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
LightGBM
맥os에서 lightGBM을 어떻게 다운로드 할 수 있을까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
early stopping best iteration
안녕하세요! 좋은 강의를 잘 듣고 있는 학생입니다. 강의를 듣다가 궁금증이 생겨서 질문 남깁니다. 시덥지않은 질문일 수 있는데 궁금해서 알려주시면 감사하겠습니다! 1) early_stopping_rounds의 값을 지정하고 돌리면 선생님처럼 Stopping. Best itertion: 하고 값이 안나오는데 이건 따로 지정해주어야하는건가요? 아니면 무언가가 업데이트 되면서 안나오는건가요?? 좋은 강의 감사합니다:)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
무슨 원리로 두가지 알고리즘이 차이가 심한건가요?
무슨 원리로 두가지 알고리즘이 차이가 심한건가요? 마지막 SMOTE오버 샘플링 할 때 어떤 원리로 차이가 심한건지 알고 싶습니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV로 교차검증 및 하이퍼 파라미터 튜닝과 예측 정확도
안녕하세요, 강사님. 좋은 강의 잘 듣고 있습니다. GridSearchCV로 교차검증을 진행해 하이퍼 파라미터 튜닝을 진행한 후의 랜덤 포레스트의 최고 예측 정확도가, 진행하기 전 정확도보다 낮게 나왔는데요. 혹시 이러한 경우 이유는 무엇인지 알 수 있을까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님! 강의 잘 보고 있습니다.!
안녕하세요 선생님! 혹시 21:04 최종 메타모델을 라쏘 회귀로 설정하신 특별한 이유가 있으신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
roc_curve 함수에서 반환하는 fpr, tpr, threshold의 갯수를 늘려줄 수 있을까요?
안녕하세요. 먼저 테스트 데이터가 그렇게 많지는 않습니다. 그런 상태에서 roc_curve 평가지표를 찍어봤을 때 index 개수가 얼마 나오지 않아서 질문을 드립니다. 그래서 그런지 threshold가 조금 최적화가 덜되는 것 같아서요 distances = (tpr - 1.) ** 2 + fpr ** 2 # distances from (1,0) in roc curve best_index = np.argmin(distances) #그래서 주석이 아닌 아래 threshold 값을 쓰고 있습니다 threshold = (thresholds[best_index] + thresholds[best_index +1]) / 2 # threshold = thresholds[best_index]
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
Scikit learn과 Android App
안녕하세요! 파이썬 머신러닝 완벽가이드 수업을 통해 머신러닝에 대해 처음으로 알아가고 있는 대학생입니다. 수업의 내용과는 직접적으로 관련이 없지만... 수업에서 사용하고 있는 사이킷런에 대해 궁금증이 생겨 질문을 드리게 되었습니다. 사이킷런을 활용하여 구현한 모델을 안드로이드 앱에서 동작할 수 있도록 하는 방법이 있는지 궁금합니다. TensorFlow와 같은 다른 머신러닝 프레임워크는 안드로이드에서도 사용할 수 있다는 정보를 많이 찾을 수 있었는데, 사이킷런은 관련된 정보가 없는 것 같아 여쭤봅니다! 만약 사이킷런을 안드로이드에서 사용할 수 있는 방법이 없다면 다른 프레임워크의 사용 방법을 익히고 새롭게 모델을 만들어야만 하는지도 궁금합니다. 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
무슨 문제인지 모르겠어요
선생님! 소스코드 pipe.fit(x.reshape(-1,1),y) 이 부분에서 'numpy.ndarray' object has no attribute 'fit' 이런 오류가 떠요. 나머지 부분들은 다 교재와 똑같이 썼는데, 왜 이런 오류가 떳는지 모르겠습니다..동영상 06:09분 입니다.