월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
스태킹 모델 생성 후 새로운 데이터에 적용 문의드립니다.
안녕하세요 강사님, 스태킹 모델 관련 질문 다시한번만 드리겠습니다 ㅠ 현재 xgb,lgbm, 랜덤포레스트, 결정트리 4가지 모델에 대한 stacking 모델을 만들고자 합니다. 각 모델에 대한 학습은 완료되었으며, pkl 파일로 추출하였습니다 강의에 사용된 get_stacking_base_datasets() 함수의 경우 아래 예시처럼 y_train을 인자로 받고 있는데,xgb_train, xgb_test = get_stacking_base_datasets(xgb_clf, X_train, y_train, X_test, 7)만약 경연 등의 목적으로 정답이 주어지지 않은 새로운 데이터가 주어졌을 경우, y_train값은 존재하지 않게 되는데, 이럴 경우 어떤 식으로 예측 코드를 작성해야 할 지 감이 잡히지 않아 다시 여쭙게 되었습니다..!xgb_train, xgb_test = get_stacking_base_datasets(xgb_clf, X_train, y_train, X_test, 7) lgbm_train, lgbm_test = get_stacking_base_datasets(lgbm_clf, X_train, y_train, X_test, 7) rf_train, rf_test = get_stacking_base_datasets(rf_clf, X_train, y_train, X_test, 7) dt_train, dt_test = get_stacking_base_datasets(dt_clf, X_train, y_train, X_test, 7) Stack_final_X_train = np.concatenate((xgb_train, lgbm_train, rf_train, dt_train), axis=1) Stack_final_X_test = np.concatenate((xgb_test, lgbm_test, rf_test, dt_test), axis=1) lr_final = LogisticRegression() lr_final.fit(Stack_final_X_train, y_train) stack_final = lr_final.predict(Stack_final_X_test)
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
예측정확도가 아닌 예측결과를 알 수 있나요?
머신러닝을 통해 하나의 데이터 값이 어느 값을 가질지 예측하는 결과를 알 수는 없나요?예를 들어 여러 붓꽃데이터를 학습시킨 다음에 하나의 붓꽃데이터를 준 후 기계가 이 붓꽃데이터가 어디에 들어가는지 판별하는것을 알 수 있나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
하이퍼 파라미터 튜닝 관련 질문입니다.
안녕하세요.강의는 필요한만큼 듣고 내용을 실제 적용해 보는 중인데, 하이퍼파라미터 때문에 뇌가 터질것 같습니다.중구난방 흩어져있는 정보도 그렇고..파이썬래퍼와 사이킷런래퍼 이름 찾는것도 그렇고.. 뭐 그래도 이제 슬슬 정리는 되가고 있는데... 근본적인 문제에 도착했습니다.일단 튜닝 방법론으로 두가지를 생각했습니다.알려진 중요도와 상관관계에 따라 덩어리 별로 튜닝한다.- 진행하지 않은것은 디폴트로- 결과가 나온것은 명시적으로 픽스조절하려는 파라미터를 전체 튜닝 한 후 그중 높은 중요도 순으로 개별 튜닝한다.지금 돌려보고는 있는 중인데...(참 하세월이네요. ㅠ_ㅠ) 로그 찍히는걸 보고 있자니 의문이 드는 겁니다. 하이퍼파라미터가 독립적으로 작용하지 않고, 서로에게 영향을 주고, 과적합을 막기도 하고 있는데...1번의 경우는 먼저 진행한것들이 기타 파라미터들이 정해지지 않은 상태에서 튜닝이 되고... 그 뒤에 나머지 들이 정해진다면, 먼저 정해진 것이 나중에 정해진 것들에 영향을 받기에 다시 튜닝 해야하는거 아닌가? 그리고 초반에 튜닝 한것들을 이런 연유로 수정하고 나면 그 뒤에 것들도 다시 해야해서 결국은 무한 루프에 빠지게 됩니다.2번도 결국 비슷한 이야긴데... 전체를 적절히 튜닝하고 난 후에(전체적으로 조화로운 상태에서) 그중 특정 파라미터를 튜닝하는 것이 과연 맞는 것인지...(슈퍼컴퓨터를 사서 모든 경우의 수를 다 뒤지는게 정답일까요? ㅠ_ㅠ)어째건... 제가 궁금한 것은 내가 생각해낸 방법론은 과연 효율적인가? 그리고 무한루프 돌지 않고 적정선에서 빠져나가는 방법이 있을까? 입니다.아 그리고 lightbgm 기준으로 아래와 같은 3덩어리를 순서대로 튜닝한다 면 어떤 순서가 가장 다른 파라미터에 영향을 덜 받을 까요?1. learning_rate, num_boost_rounds2. max_depth , num_leaves3. etc강의 잘 들었고... CNN강의도 잘 듣고 있습니다.(CNN 파라미터 튜닝은 또 어떻게 할지 미리부터 걱정이네요. ㅠ_ㅠ) 진심으로 감사드립니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
bike sharing 시각화 질문
안녕하세요. 강의 잘 듣고 있습니다.회귀 실습 1: 자전거 대여(공유) 수요 예측 - 0110분 49초 시각화 부분에서 질문이 있는데요. Q1for 문 아래에서 저는 estimator 파라미터에 아래와 같이 mean 을 명시해주고 실행해 봤는데sns.barplot(data = bike_df, x = feature, y = 'count', estimator='mean', ax = axe[row][col])=> TypeError: 'str' object is not callable가 발생합니다. 이유가 뭔가요..? seaborn.barplot 공식 문서에도 estimator 파라미터에 'mean' 으로 적혀있는 부분이 있는데 왜 오류가 나는 걸까요? 답변 부탁드립니다.감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
로지스틱 회귀 파라미터 질문
안녕하세요. 강의 잘 듣고 있습니다 :)로지스틱 회귀를 이용한 위스콘신 암 예측 모델 실습 강의5분 45초에서 로지스틱회귀 모델의 파라미터인 max_iter는 정확히 무엇을 의미하는 것이고, 무엇을 위해 있는 파라미터 인가요? 설명 부탁드립니다.감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
라쏘 회귀 질문
안녕하세요. 강의 잘 듣고 있습니다.라소(Lasso)와 엘라스틱넷(Elastic Net) 회귀의 이해위 강의에서 라쏘 회귀의 경우 영향력이 크지 않은 회귀 계수 값을 0으로 변환한다고 헸는데요. 여기서 '영향력' 이라는 것은 무엇을 기준으로 하나요? 답변 부탁드립니다. 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV 질문 드립니다!
안녕하세요. 강의 재미있게 잘 듣고 있습니다.강의를 듣던 중 질문 생겨 질문 드립니다.GridSearchCV의 parameter 중 refit은 최적 파라미터를 적용해 모델을 학습시켜주는 옵션으로 이해했습니다.그렇다면 이후에 fit(X_train, y_train)을 다시 해주는 이유는 무엇인지 궁금합니다.제가 생각했을 때는 굳이 다시 해줄 필요가 없을 것 같습니다.답변 부탁드립니다.감사합니다. :D
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
7-6 실습 고객 세분화
안녕하세요 선생님 강의를 보면서 궁금한점이 있습니다7-6에서 최근,빈도,총금액을 통해서 군집을 나누는 것을 봤는데이후 이 고객이 유령, 일반, vip등 이런 것들을 어떻게 나누는지 궁금합니다->즉, 해당 군집의 특성을 볼려고 하면 어떻게 해야하나요?->예를 들어 1번군집의 빈도 10, 총금액 평균 20만원 등감사합니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
KDE에 관한 질문
선생님 안녕하세요. 두가지 질문이 생겨서 글 남깁니다.여기서 왜 trapz(density, support)로 나누는지 잘 이해가 되지 않습니다.density = np.sum(kernels, axis=0)density /= trapz(density, support) 위에 sum을 하는 이유는 이해가 됩니다. 각 관측치에 커널함수를 적용하고 그 값을 더해서 합산한 것을 구하기 때문입니다. 두번째 질문책 2020판 428p에, KDE에 관한 식이 있습니다. 그런데 왜 x-xi 인지 궁금합니다. 제 생각엔 각 관측치인 xi만을 커널함수에 넣어서 더하고총 개수로 나누는 것으로 이해하는 데, 혹시 정규화를 하는 것이여서 그런가요? 그렇다면 x는 전체 30개의 평균을 말하는 것이고, h로 나눠서 정규화하는 것인가요?만일 그런 것이라면, 3) nh로 정규화된 녀석을 한번 더 나눠주는 이유는 무엇인가요? n으로 나누는 건 알겠는데 또 h가 붙는건 잘 이해가 안됩니다..ㅠ 이상 읽어주셔서 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV 관련 질문사항입니다!
Stratified KFold를 통해서 각각 fold별 train 데이터로 모델을 fit 시키면 model마다 x_test 데이터에 대해서 다른 결과값을 반환할텐데 그렇다면 GridSearchCV를 통해 하이퍼파라미터를 찾고 그 하이퍼파라미터를 적용한 모델 best_estimator_는 어떤 fold로 학습된 모델을 통해 predict을 내는것일까요? 아니면 모든 fold별로 학습된 model 값을 가지고 있다가 x_test 가 그 각각 모델에 들어간후에 평균을 낸 값이 dpredictions으로 나오는걸까요? 단순히 predict을 통해 결과를 내는데 평균을 내서 결과를 내는지 아니면 어떤 한 fold를 기준으로 학습된 모델을 사용하는지 궁금하여 질문 남깁니다!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
스태킹 모델 활용 문의드립니다.
만약 스태킹 모델(lr_final)을 pickle 등 객체로 저장하여경연 등에서 정답 분류에 사용하고자 할 때,스태킹 모델인 lr_final뿐 아니라 lr_final 모델을 만드는데 사용한 knn_clf, rf_clf, dt_clf, ada_clf 4개의 classifier 모두 객체로 저장해야 하는걸까요? 5개의 classifier를 모두 불러온 후 예측하고자 하는 데이터셋을 개별 모델들의 predict 함수의 인자로 넣어준 후, 이를 스태킹 모델의 인자로 다시 넣어주는게 맞는 순서인건가요??!!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
의사결정나무 강의 관련 질문
안녕하세요 선생님의사결정나무를 배우고 한번 다른 데이터에서도 실습을 해보고 싶어서 해보는데 오류가 나와서 질문이 있습니다iris_data 같은 경우는 변수의 속성들이 연속형변수인데변수들이 만약에 알파벳같이 string 타입이면 분류가 불가능한가요?오류가 나서 질문드립니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
결정트리 피쳐
결정트리에서 가장 먼저 결정되는 피쳐의 기준이 무엇인지 궁금합니다. 여러개의 피쳐 중 왜 petal length가 제일 먼저 나오는 것인가요? 이것도 분류를 가장 잘 할 수 있는 피쳐를 모델이 피쳐들 중에 직접 선택한 것인가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
Permutation Importance 소개 및 실습
Permutation Importance 소개 및 실습 8분 22초 Q1Ridge(alpha = 1e-2)에서 alpha 값을 1e-2 로 지정해준 이유가 있을까요?경험적으로 alpha 값을 위 값으로 지정했을 때 성능이 좋아서 그런가요? 마지막으로 e 는 자연상수를 의미하는 것인가요?파라미터 튜닝할 때 e 를 많이 쓰는데 왜 그런지도 궁금합니다. Q210분15초 에서 아래 코드는 무엇을 위해 있는 것인지 궁금합니다. 왜 하필 표준편차의 2 배 값보다 큰 평균을 가진 피처들로 선별했는지 궁금합니다. if r.importances_mean[i] - 2 * r.importances_std[i] > 0: 답변 부탁드립니다. 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
permutation 문서
안녕하세요. 강의 잘 듣고 있습니다 :)<신규> Permutation Importance 소개 및 실습 7분 13초 위 강의 부분에서 질문이 있습니다. 코드 관련된 질문은 아니고요 강사님의 경우 위 강의 7분 13초 에 나온 것과 같은 영어 문서들을 따로 번역기를 돌려서 문서를 읽으시나요. 아니면 영어 해석 능력이 어느정도 되셔서 그대로 읽으시나요? 다름이 아니라 코딩 공부를 하다보니 영어로 된 문장들을 읽어야 되는 일들이 앞으로 많이 생길것 같아서 영어공부를 따로 해야 되나 싶어서요... 강사님께서는 따로 영어공부를 하시나요? 강사님도 초반에 영어로 된 문서들을 보는 것이 어려웠을텐데 어떻게 극복하셨는지가 궁금합니다. 답변 부탁드립니다. 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
베이지안 최적화 for문 질문
선생님 안녕하세요!hyperopt에서 질문이 생겨서 글 남깁니다. # results에서 loss 키값에 해당하는 밸류들을 추출하여 list로 생성. losses = [loss_dict['loss'] for loss_dict in trial_val.results] 이 문장인데요. loss_dict라는 객체를 만든건가요?제가 알기론 for와 in 사이가 반환값으로 알고 있습니다. 그럼 반환 값이 loss_dict인데 loss_dict을 for 앞에다 바로 선언을 해준건가요? trial_val.results에서 loss 값을 가져오려고 저 코드를 쓴 것으로 압니다. 그런데 loss_dict['loss']를 하면 바로 trial_val.results의 los값에 접근할 수 있는건가요?잘 이해가 되지 않습니다ㅠㅠ
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
kfold 교차검증 수행
in enumerate 부분에서 이 코딩 부분이 어떻게 작동되는지 조금 더 자세하게 알려주실 수 있나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
validation loss와 training loss 질문
안녕하세요! 머신러닝과 딥러닝을 공부하며 궁금한 점이 생겨 질문드립니다.다양한 데이터들로 배운 내용들을 실습해보고 있는데모델 학습 후 학습 곡선을 그려 training_loss와 validation_loss를 확인해보면 training loss가 더 높고 validation_loss가 더 작은 값을 가지는 경우가 있더라구요.검색을 해봐도 train 데이터를 이용해 모델을 학습한 것이므로 training loss가 더 낮아야 할 것 같은데,이 값이 더 높게 나오는 이유를 알 수 있을까요? 또한 이렇게 validation loss이 더 낮은 상황이 지속되다가 training_loss와 validation_loss가 교차하게 되어 두 수치의 대소 관계가 바뀌게 된다면 이것은 무엇을 의미하는지 알 수 있을까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
light GBM 파라미터 질문
안녕하세요. 강의 잘 듣고 있습니다 :) 분류 실습 2: 신용카드 사기 예측 실습 - 02, 13:32에서 boost_from_average 에 대해서 설명해 주시는데요. 해당 파라미터는 무엇을 위한 파라미터 인가요?그리고 라벨값이 불균형한 경우 해당 파라미터를 False 로 지정하면 왜 재현율, auc 성과에 유리한 것인가요? 답변 부탁드립니다. 감사합니다 :)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
산탄대르 인코딩 방식
안녕하세요. 강의 잘 듣고 있습니다 :) 분류 실습 1 : 캐글경연대회의 산탄데르 은행 고객 만족 예측 - 012분 40초 에서 encoding = 'latin-1 ' 로 설정을 해주시는데요. utf-8-sig 로 인코딩 지정을 해줘도 되는데 왜 여기서 latin-1 로 지정해준 것인지 궁금합니다. 따로 latin-1 로 지정하는 특정한 경우가 있는지 궁금합니다. 감사합니다.