월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
n_epochs 문의
강의에서 GridSearchCV를 하였을 때 최적 n_epochs 파라미터가 20으로 도출되었습니다. n_epochs가 행렬 분해 시 SGD를 얼마나 반복할지를 지정하는 파라미터로 알고 있는데, 그렇다면 이론적으로는 n_epochs가 높을수록 정확도가 높은게 아닌가요?? n_epochs가 낮아도 모델의 정확도가 높은 경우가 빈번하니 하이퍼파라미터로 n_epochs 최적값을 도출하는 과정을 만들었을거라고 생각됩니다. n_epochs가 낮아도 정확도 값이 높은 케이스는 어떤게 있나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
예측값
알고리즘을 통해 학습,예측,평가를 해서 정확도까지 확인을 하지만, 예측 모델을 만든 목적은 예측값을 확인하기 위함 아닌가요..? 예제에선 예측한 값을 확인해보지 않는데 그 이유가 무엇인지 궁굼합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
inplace=True와 변수 할당의 차이점
3장 피마인디언 당뇨병 예측에서 0값을 평균값으로 바꿔주는 부분에서 책에는 mean_zero_features= diabetes_data[zero_features].mean()diabetes_data[zero_features]=diabetes_data[zero_features].replace(0, mean_zero_features)처럼변수를 할당해서 값이 대체되는데 diabetes_data[zero_features].replace(0, mean_zero_features, inplace=True)로 변수 할당 대신 inplace=True를 옵션으로 추가해서코드를 변경하니 값이 대체되지 않는데 혹시 이유가 있을까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
마지막 SMOTE 이후 LGBMClassifier 학습하고 평가할 때
선생님~ SMOTE 방식으로 오버샘플링을 한 이후로는서 학습데이터의 레이블 데이터 값 분포가 균일 해져서 boost_from_average=True로 하고 한번 해봤는데요~ (강의에서는 False로 그냥 진행되었었음) 재현율은 똑같고.. 정밀도는 조금 낮아졌지만, ROC_AUC는 좀더 높아졌네요.. 오버샘플링(혹은 언더샘플링)을 해서 학습데이터의 레이블데이터의 값분포를 균일하게 맞춰주게 되면 boost_from_average=True 로 하는 걸 더 권장하시나요~? 아니면 False로 하는 걸 더 권장하시나요..?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
feature_importance 관련 질문
안녕하세요. 수업을 잘 듣고 있습니다. 수업을 듣다가 문득 궁금한 점이 있어서 문의를 남겨요. Santander 예제에서 "feature_importance 함수를 이용하여 F1 score를 기준으로 해서 feature들의 중요도 탑 20을 보여주는거구나" 라고만 생각하고 넘어갔었는데, 여기서 저 실제 데이터 값(4318 , 1890 , 1333 ...)은 무엇을 의미하는건가요? F1 score값이 몇백,몇천이 될리는 없고.. 무엇을 뜻하는지 궁금하네요. 그리고 저건 그냥 F1 score에 따른 중요도를 한번 봐본것이지, 어떤 척도로 중요도를 기준으로 feature importance를 보느냐에 따라 분석 방향이 달라지는 것 맞는지 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
labelbinarizer
labelbinarizer가 라벨인코딩화 원핫인코딩을 한번에 실행한다는 장점때문에 사용했다고 설명하셨습니다.ㅏ 이전에 get_dummies를 배웠는데, get_dummies와 labelbinarizer의 차이는 무엇인가요?
- [개정판] 파이썬 머신러닝 완벽 가이드
상자그림에서의 설명
삭제된 글입니다
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
사용자정의 함수 인자에 None을 할당하는 이유
책 p.174에 보면 get_clf_eval()이라는 사용자 정의함수를 만들 때, get_clf_eval(y_test, pred=None, pred_proba=None)처럼 두 인자에 None을 할당합니다. None을 할당하는 경우와 None 할당 없이 get_clf_eval(y_test, pred, pred_proba) 이렇게만 쓰는 경우는 어떤 차이가 있나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
모델 정확도
결정트리, 랜덤 포레스트,로지스틱 회귀를 통해서 생존자를 예측하고 모델마다 정확도를 구하는데 정확도의 의미를 어떻게 해석해야하나요? 예를들어 결정트리의 정확도가 0.7877이라고 한다면, test데이터를 학습한 모델로 예측했을 때 예측한 결과가 실제와 정확할? 맞을? 확률이 0.7877이라는 뜻인가요? (뒤에 '평가'강의를 들어도 어떤 뜻인지 정확히 와닿지않아서 질문드립니다.)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
파이썬래퍼 XGBoost 예측할 때 넣어주는 인자값
pred_probs = xgb_modle.predict(dtest) 파이썬래퍼 XGBoost 예측할 때 넣어주는 인자값이 dtest 인데 dtest는 xgb.DMatrix(data=X_test, labe=y_test)인데.. dtest를 넣어줬지만 그 안에 data=X_test 이것만 사용하는 건가요??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
feature importace 그림에서 y축
선생님~ y축이 원래 feature name 으로 보이게 하려면 어떻게 해야 하나요..? 그리고 지금 y축에서 보여지는 f2.1, f1 , f1.3 ... 이런건 뭘 의미하는 건가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
XGBoost의 여러학습기는 모두 트리기반인건가요~?
XGBoost에서 (GBM을 기반으로 하니)여러학습기는 모두 트리기반인건가요~?! 이점은 랜덤포레트스와 비슷하다고 볼 수 있겠네요..? 그리고 학습기가 돌아가는 방식이 다른점이.. 랜덤포레스트는 병렬구조로 돌아가서 수행이 빠르고, GBM은 학습기별로 순차적으로 학습-예측하면서 잘못예측한 데이터에 가중치 부여하면서 가서 수행속도가 느린거지요~?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
santander에서 레이블 값 분포 비율 관련 문의
안녕하세요. 오늘도 강의 들으면서 재밌게 공부하고 있는데요! 궁금한 사항이 있어서 문의를 드립니다. 교재에는 P.256쪽에 있는 내용인데, 2가지 질문이 있습니다. 1) stratified k를 쓰지도 않았고 현재 train_test_split 밖에 한 것이 없는데, 자동적으로 알아서 train set 과 test set에서의 레이블 값 분포 비율이 0.96 vs 0.04 정도로 유지되는건, stratified를 사용하지 않아도 자동적으로 알아서 골고루 0 과 1 레이블 값들이 알아서 배분되는건가요? 2) 그리고 96%라고 설정하지 않았는데도 default 값이 96%, 4%로 나누게끔 되어있는건가요? 3) 위 그림에서 min_child_weight 는 min_samples_leaf라고 생각하면 될까요? 또한, auc를 구할 때 평균(average - macro)이 왜 쓰이는지 모르겠네요! 그리구 당연히 col_sample도 매번 돌릴 때마다 추출되는 column이 다르니 그럼 결과값이 달라지겟죠?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
파이썬래퍼XGBoost에서도 실제 업무에서는
선생님~xgb.train의 인자에서 evals=wlist 이렇게 넣어주셨는데요~ wlist = [(dtrain,'train'),(dtest,'eval') ]에서 원래 실제 업무에서는 dtest가 아니라, (dtrain에서 다시 학습데이터를 학습-검증 나눈 다음에) 검증데이터를 넣어줘야 하는 것이지요? 그렇다면, 파이썬래퍼에서 evals에 검증데이터를 넣어주기 위해서는 (사이킷래퍼에서는 eval_set에서 검증데이터 넣어주기 위해서는) 학습데이터를 train_test_split으로 나눠야 하는 건가요? cross_val_socre에서는 그냥 학습데이터만 넣어주면 자체에서 학습-검정으로 나눠주지만.. 파이썬래퍼 xgboost에서 볼때, dtrain에 학습을 넣고 eval에 학습, 검증데이터를 넣어줘야 하니.. 매번 강의마다 데이터가 적어서 이렇게 하시는 건 이해하지만.. 좀 처음 배울 때에는 실제업무에서와는 다른 방식이 굉장히 헷갈립니다..ㅠㅠㅠ .. 데이터가 적더라도 실제로 하는 방식으로 보여주는 예제도 있었으면 좋겠습니다..ㅠㅠ 혹시 강의 뒷부분에서는 실제업무처럼 제대로 잘 이루어지는 강의내용이 있나요~? ㅜㅜ 항상 좋은 강의 정말 잘 듣고 있고 답변도 매번 자세히 잘 해주셔서 선생님께 정말 감사합니다..ㅠㅠ 그런데 학습-검증-테스트 이런 부분만 나오면.. 데이터가 적어서 ㅠㅠ 계속 이렇게 하셔서 이 부분이 굉장히 좀 헷갈리고 그렇습니다..ㅠㅠ
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
load_breast_cancer() 데이터
선생님~ 3:32-35쯤에 1이 악성이고 0이 그냥 양성이라고 하셨는데요~ 3:39에 print(dataset.target_names) 해보면 ['malignant', 'benign'] 으로 나오면서 다시, 0이 malignant(악성), 1이 benign (양성)이라고 하시는데.. 0이 악성이고, 1이 양성이 맞는건가요~? (처음에 말씀하신 부분이 잘못 말씀하신건지요~?) 그리고 또 궁금한점이.. 0이 악성이고, 1이 양성이게 되면.. 보통 이진분류에서 중요한 값을 positive에 넣어서 1값이 중요한 값으로 처리한다고 설명하셨었는데.. 기존 sklearn에 내장되어있는 위스콘신유방암 데이터에서는 0을 악성으로 햇네요.. 악성이 더 중요한 값이 아닌가요~? (양성이면 정상이라는 거니깐.. ) 저 데이터에서는 데이터 입력자가 그렇게 넣었겠지만.. 보통 암진단 경우에서는 중요한 값인 악성을 1로 하지요..??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
아나콘다 xgboost 설치 에러
선생님 ㅠㅠ.. 아나콘다 에서 XGboost 깔려고하는데.. 이런 에러 뜨면 어떻게 해야 하나요 ㅠㅠㅠ...?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
jupyter notebook 파일 한글깨짐현상
안녕하세요 :) 강의내용과 동일하게 GitHub에서 소스코드를 다운받았는데 한글이 깨지는 현상이 발생했습니다. 파일목록과 파일이름이 아래와 같이 한글이 깨집니다. 어떻게 해결할 수 있을까요? 답변 미리 감사드립니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
model fit!!
강의 잘 듣고 있습니다!! get_linear_reg_eval함수에서 cross_val_score()안에는 X_data_n을 사용하셨는데 model.fit() 안에는 왜 X_data를 사용하신지 궁금합니다!!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
split0_test_score과 split1_test_score이 의미는 무엇인가요~?
선생님~ 강의에는 없었고, 주피터노트북 다시 코드작성하다가 GridSearchCV의 cv_results_ 기능에서 split0_test_score과 split1_test_score의 의미는 무엇인가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
gb_clf 초기화 안하고 바로 GridSearchCV해도 되나요?
선생님~ GirdSearchCV 하기 전에 위의 셀에서 gb_clf 는 위에서 학습하고 예측했는데요~ 위의 셀에 학습된 gb_clf 를 초기화 안하고 바로 GridSearch를 해도 괜찮은 건가요~?(강의예제라 그냥 생략하신건지~?) GrindSearchCV로 검증하고 예측하려면, 다시 처음부터 초기화된 모델을 불러오고 해야 하는 건지 굳이 그렇게 초기화 안해도 아무 상관 없는 건지 헷갈리네요 ㅠ