월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
why 7?
cos 유사도가 1이 넘어갑니다,,,,, 왜 그런지알수있나요? 추가로 자기자신과 유사도를 비교했는데 1이 안되는 경우도 있습니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
실시간 추천시스템 구현방법 문의
안녕하세요. 강사님. 원리를 바닥부터 설명해주셔서 추천시스템의 본질을 이해하는데 큰 도움을 받았습니다. 강의에서는 추론 대상이 되는 유저가 남김 평점 데이터를 포함하여 행렬 분해를 하고 학습해서 안 본 영화의 평점을 예상합니다. 그런데 넷플릭스 같은 추천 서비스는 유저가 가입하자마자 자기가 본 영화에 평점을 남기면 즉시 영화를 추천해 주는데, 이것은 어떻게 하는 것인지요? 잠재 요인 기반 협업 필터링을 이용한다면, 유저가 데이터를 입력하자마자 기존 데이터에 추가한 뒤 새롭게 matrix를 분해해서 다시 학습해야 하고 이는 시간이 너무 오래 걸리기에 불가능한 방법으로 보입니다. 그리고 아이템 기반 협업 필터링을 이용한다고 해도 새로운 데이터를 추가해서 다시 학습하면 전체 코사인 유사도가 이전과 달라지고 예상 평점도 달라집니다. ('9.2 아이템 기반 인접 이웃 협업 필터링 실습' 강의에서 영화 데이터의 user 수를 다르게 해서(한 쪽은 모든 유저, 다른 한 쪽은 70번까지 유저 데이터만 이용) 영화 간에 코사인 유사도를 비교해보니 코사인 유사도가 다르게 나오는데, 이 때 아이템 간의 유사도가 다르게 나오는 것이 맞지요?) 신규 유저가 입력한 raw한 평점 데이터 값을 이미 만든 모델에 inference해서 결과값을 받는 웹어플리케이션을 만들어 보고 싶은데, 위 이유 때문에 어떻게 해야할지 감이 안 잡힙니다. 혹시 강의 후반부에서 다뤄주실까 하고 완강했으나 해당 내용은 언급되지 않아 직접 문의드립니다. 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 feature selection 파일 다운로드
선생님 ~ PerfectGuid수정ver01.zip 파일은 다운로드 버튼이 있어서 쉽게 받을 수 있었는데.. feature selection 파일은 클릭하면 다운로드 버튼이 없네요.. 깃을 사용해서 다운로드 받아야 하나요..? 깃허브 처음 사용해봐서 ..ㅠ 모르겠네요..
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
n_epochs 문의
강의에서 GridSearchCV를 하였을 때 최적 n_epochs 파라미터가 20으로 도출되었습니다. n_epochs가 행렬 분해 시 SGD를 얼마나 반복할지를 지정하는 파라미터로 알고 있는데, 그렇다면 이론적으로는 n_epochs가 높을수록 정확도가 높은게 아닌가요?? n_epochs가 낮아도 모델의 정확도가 높은 경우가 빈번하니 하이퍼파라미터로 n_epochs 최적값을 도출하는 과정을 만들었을거라고 생각됩니다. n_epochs가 낮아도 정확도 값이 높은 케이스는 어떤게 있나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
예측값
알고리즘을 통해 학습,예측,평가를 해서 정확도까지 확인을 하지만, 예측 모델을 만든 목적은 예측값을 확인하기 위함 아닌가요..? 예제에선 예측한 값을 확인해보지 않는데 그 이유가 무엇인지 궁굼합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
inplace=True와 변수 할당의 차이점
3장 피마인디언 당뇨병 예측에서 0값을 평균값으로 바꿔주는 부분에서 책에는 mean_zero_features= diabetes_data[zero_features].mean()diabetes_data[zero_features]=diabetes_data[zero_features].replace(0, mean_zero_features)처럼변수를 할당해서 값이 대체되는데 diabetes_data[zero_features].replace(0, mean_zero_features, inplace=True)로 변수 할당 대신 inplace=True를 옵션으로 추가해서코드를 변경하니 값이 대체되지 않는데 혹시 이유가 있을까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
마지막 SMOTE 이후 LGBMClassifier 학습하고 평가할 때
선생님~ SMOTE 방식으로 오버샘플링을 한 이후로는서 학습데이터의 레이블 데이터 값 분포가 균일 해져서 boost_from_average=True로 하고 한번 해봤는데요~ (강의에서는 False로 그냥 진행되었었음) 재현율은 똑같고.. 정밀도는 조금 낮아졌지만, ROC_AUC는 좀더 높아졌네요.. 오버샘플링(혹은 언더샘플링)을 해서 학습데이터의 레이블데이터의 값분포를 균일하게 맞춰주게 되면 boost_from_average=True 로 하는 걸 더 권장하시나요~? 아니면 False로 하는 걸 더 권장하시나요..?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
feature_importance 관련 질문
안녕하세요. 수업을 잘 듣고 있습니다. 수업을 듣다가 문득 궁금한 점이 있어서 문의를 남겨요. Santander 예제에서 "feature_importance 함수를 이용하여 F1 score를 기준으로 해서 feature들의 중요도 탑 20을 보여주는거구나" 라고만 생각하고 넘어갔었는데, 여기서 저 실제 데이터 값(4318 , 1890 , 1333 ...)은 무엇을 의미하는건가요? F1 score값이 몇백,몇천이 될리는 없고.. 무엇을 뜻하는지 궁금하네요. 그리고 저건 그냥 F1 score에 따른 중요도를 한번 봐본것이지, 어떤 척도로 중요도를 기준으로 feature importance를 보느냐에 따라 분석 방향이 달라지는 것 맞는지 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
labelbinarizer
labelbinarizer가 라벨인코딩화 원핫인코딩을 한번에 실행한다는 장점때문에 사용했다고 설명하셨습니다.ㅏ 이전에 get_dummies를 배웠는데, get_dummies와 labelbinarizer의 차이는 무엇인가요?
- [개정판] 파이썬 머신러닝 완벽 가이드
상자그림에서의 설명
삭제된 글입니다
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
사용자정의 함수 인자에 None을 할당하는 이유
책 p.174에 보면 get_clf_eval()이라는 사용자 정의함수를 만들 때, get_clf_eval(y_test, pred=None, pred_proba=None)처럼 두 인자에 None을 할당합니다. None을 할당하는 경우와 None 할당 없이 get_clf_eval(y_test, pred, pred_proba) 이렇게만 쓰는 경우는 어떤 차이가 있나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
모델 정확도
결정트리, 랜덤 포레스트,로지스틱 회귀를 통해서 생존자를 예측하고 모델마다 정확도를 구하는데 정확도의 의미를 어떻게 해석해야하나요? 예를들어 결정트리의 정확도가 0.7877이라고 한다면, test데이터를 학습한 모델로 예측했을 때 예측한 결과가 실제와 정확할? 맞을? 확률이 0.7877이라는 뜻인가요? (뒤에 '평가'강의를 들어도 어떤 뜻인지 정확히 와닿지않아서 질문드립니다.)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
파이썬래퍼 XGBoost 예측할 때 넣어주는 인자값
pred_probs = xgb_modle.predict(dtest) 파이썬래퍼 XGBoost 예측할 때 넣어주는 인자값이 dtest 인데 dtest는 xgb.DMatrix(data=X_test, labe=y_test)인데.. dtest를 넣어줬지만 그 안에 data=X_test 이것만 사용하는 건가요??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
feature importace 그림에서 y축
선생님~ y축이 원래 feature name 으로 보이게 하려면 어떻게 해야 하나요..? 그리고 지금 y축에서 보여지는 f2.1, f1 , f1.3 ... 이런건 뭘 의미하는 건가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
XGBoost의 여러학습기는 모두 트리기반인건가요~?
XGBoost에서 (GBM을 기반으로 하니)여러학습기는 모두 트리기반인건가요~?! 이점은 랜덤포레트스와 비슷하다고 볼 수 있겠네요..? 그리고 학습기가 돌아가는 방식이 다른점이.. 랜덤포레스트는 병렬구조로 돌아가서 수행이 빠르고, GBM은 학습기별로 순차적으로 학습-예측하면서 잘못예측한 데이터에 가중치 부여하면서 가서 수행속도가 느린거지요~?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
santander에서 레이블 값 분포 비율 관련 문의
안녕하세요. 오늘도 강의 들으면서 재밌게 공부하고 있는데요! 궁금한 사항이 있어서 문의를 드립니다. 교재에는 P.256쪽에 있는 내용인데, 2가지 질문이 있습니다. 1) stratified k를 쓰지도 않았고 현재 train_test_split 밖에 한 것이 없는데, 자동적으로 알아서 train set 과 test set에서의 레이블 값 분포 비율이 0.96 vs 0.04 정도로 유지되는건, stratified를 사용하지 않아도 자동적으로 알아서 골고루 0 과 1 레이블 값들이 알아서 배분되는건가요? 2) 그리고 96%라고 설정하지 않았는데도 default 값이 96%, 4%로 나누게끔 되어있는건가요? 3) 위 그림에서 min_child_weight 는 min_samples_leaf라고 생각하면 될까요? 또한, auc를 구할 때 평균(average - macro)이 왜 쓰이는지 모르겠네요! 그리구 당연히 col_sample도 매번 돌릴 때마다 추출되는 column이 다르니 그럼 결과값이 달라지겟죠?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
파이썬래퍼XGBoost에서도 실제 업무에서는
선생님~xgb.train의 인자에서 evals=wlist 이렇게 넣어주셨는데요~ wlist = [(dtrain,'train'),(dtest,'eval') ]에서 원래 실제 업무에서는 dtest가 아니라, (dtrain에서 다시 학습데이터를 학습-검증 나눈 다음에) 검증데이터를 넣어줘야 하는 것이지요? 그렇다면, 파이썬래퍼에서 evals에 검증데이터를 넣어주기 위해서는 (사이킷래퍼에서는 eval_set에서 검증데이터 넣어주기 위해서는) 학습데이터를 train_test_split으로 나눠야 하는 건가요? cross_val_socre에서는 그냥 학습데이터만 넣어주면 자체에서 학습-검정으로 나눠주지만.. 파이썬래퍼 xgboost에서 볼때, dtrain에 학습을 넣고 eval에 학습, 검증데이터를 넣어줘야 하니.. 매번 강의마다 데이터가 적어서 이렇게 하시는 건 이해하지만.. 좀 처음 배울 때에는 실제업무에서와는 다른 방식이 굉장히 헷갈립니다..ㅠㅠㅠ .. 데이터가 적더라도 실제로 하는 방식으로 보여주는 예제도 있었으면 좋겠습니다..ㅠㅠ 혹시 강의 뒷부분에서는 실제업무처럼 제대로 잘 이루어지는 강의내용이 있나요~? ㅜㅜ 항상 좋은 강의 정말 잘 듣고 있고 답변도 매번 자세히 잘 해주셔서 선생님께 정말 감사합니다..ㅠㅠ 그런데 학습-검증-테스트 이런 부분만 나오면.. 데이터가 적어서 ㅠㅠ 계속 이렇게 하셔서 이 부분이 굉장히 좀 헷갈리고 그렇습니다..ㅠㅠ
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
load_breast_cancer() 데이터
선생님~ 3:32-35쯤에 1이 악성이고 0이 그냥 양성이라고 하셨는데요~ 3:39에 print(dataset.target_names) 해보면 ['malignant', 'benign'] 으로 나오면서 다시, 0이 malignant(악성), 1이 benign (양성)이라고 하시는데.. 0이 악성이고, 1이 양성이 맞는건가요~? (처음에 말씀하신 부분이 잘못 말씀하신건지요~?) 그리고 또 궁금한점이.. 0이 악성이고, 1이 양성이게 되면.. 보통 이진분류에서 중요한 값을 positive에 넣어서 1값이 중요한 값으로 처리한다고 설명하셨었는데.. 기존 sklearn에 내장되어있는 위스콘신유방암 데이터에서는 0을 악성으로 햇네요.. 악성이 더 중요한 값이 아닌가요~? (양성이면 정상이라는 거니깐.. ) 저 데이터에서는 데이터 입력자가 그렇게 넣었겠지만.. 보통 암진단 경우에서는 중요한 값인 악성을 1로 하지요..??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
아나콘다 xgboost 설치 에러
선생님 ㅠㅠ.. 아나콘다 에서 XGboost 깔려고하는데.. 이런 에러 뜨면 어떻게 해야 하나요 ㅠㅠㅠ...?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
jupyter notebook 파일 한글깨짐현상
안녕하세요 :) 강의내용과 동일하게 GitHub에서 소스코드를 다운받았는데 한글이 깨지는 현상이 발생했습니다. 파일목록과 파일이름이 아래와 같이 한글이 깨집니다. 어떻게 해결할 수 있을까요? 답변 미리 감사드립니다.