월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
강의자료는 다운받을수 없나요?
안녕하세요. 강의를 잘 듣고 있습니다.유익한 강의를 해주셔서 감사합니다.강의 자료는 다운 받을 수 없나요?
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
classification을 통한 cluster 해석
안녕하십니까 교수님 cluster 해석과 관련하여 질문이 있어 글을 작성하게 되었습니다. 각 cluster별로 명확하게 어떤 feature가 많이 고려되었다는 것을 확인할 수 있는 방법이 있을까요? clustering을 진행한 뒤 다음과 같은 방법으로 cluster를 해석하려 하였습니다.1) 군집화를 진행하여 0, 1, 2, 3 의 cluster가 도출됨2) cluster를 label 데이터로 하여 classification을 진행3) feature importance를 활용하여 기술적으로 cluster를 해석 여기서 질문드리고 싶은 점은.. 각 군집별로 feature importance를 도출할 방법이 없을까요? (또는 XAI등 다른 방법이 있을까요??)현재 feature importance는 cluster 0, 1, 2, 3을 모두 반영한 feature importance를 도출해 명확하게 cluster의 특징을 해석하기 어려운 것 같습니다.. 각 cluster별로 어떤 feature가 많이 고려되었다는 것을 확인할 수 있는 방법이 있는 지가 궁금합니다. 항상 감사드립니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 데이터 import가 안돼요 ㅠㅠ
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 선생님 보스턴 가격예측 데이터 임포트가 안돼요 ㅠㅠ
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
Stacking 모델 질문드립니다.
안녕하십니까 선생님강의 수료하고도 부족한 부분이 많아 재수강하면서 문득 궁굼한 점이 생겨 글 남깁니다. 일전에 from sklearn.ensemble import StackingRegressor를 이용하여 메소드로 스태킹 모델에 관한 질문을 하기도 하였는데요. 베이스 모델의 하이퍼파라미터 튜닝을 진행하여 모델마다 5개의 매개변수를 튜닝하고 스태킹 모델에 베이스 모델로 사용할 경우 메타모델의 alpha값에 따른 예측 결과의 변화가 없을 수 있나요? 이상입니다.감사합니다.
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
Recursive Feature Elimination 관련 질문드립니다.
안녕하세요. 좋은 강의 잘 듣고 있습니다.<신규> Recursive Feature Elimination과 SelectFromModel 실습 강의 부분에서svc = SVC(kernel="linear") # REFCV로 Feature들을 반복적으로 제거해가면서 학습/평가 수행. rfecv = RFECV(estimator=svc, step=1, cv=StratifiedKFold(2), scoring='accuracy', verbose=2) rfecv.fit(X, y) print("Optimal number of features : %d" % rfecv.n_features_)이 코드를 돌렸을 때 나오는 verbosity가 잘 이해되지 않아서 질문드립니다.Fitting estimator with 25 features. Fitting estimator with 24 features. Fitting estimator with 23 features. Fitting estimator with 22 features. ... Fitting estimator with 4 features. Fitting estimator with 3 features. Fitting estimator with 2 features. Fitting estimator with 25 features. Fitting estimator with 24 features. Fitting estimator with 23 features. Fitting estimator with 22 features. ... Fitting estimator with 4 features. Fitting estimator with 3 features. Fitting estimator with 2 features. Fitting estimator with 25 features. Fitting estimator with 24 features. Fitting estimator with 23 features. Fitting estimator with 22 features. ... Fitting estimator with 7 features. Fitting estimator with 6 features. Fitting estimator with 5 features. Fitting estimator with 4 features. Optimal number of features : 3cv=2라서 25~2 features로 코드가 2번 돌아가는 것 같은데그 후에 25~4(optimal number of features + 1)까지 한 번 더 돌아가는 이유가 무엇인가요? 추가적으로, plt.ylabel("Cross validation score (nb of correct classifications)") 여기 nb of correct classifications에서 nb가 number의 약자가 맞을까요? 이상입니다. 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
파이썬 머신러닝 완벽한 가이드 교수님이 강의하신 .ppt 파일은 어디에서 더운로드 받을 수 있나요?
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
ML 모델 배포 질문
안녕하세요. 강의를 통해 많은 도움 받고 있습니다.강의 수강 중에 질문이 있습니다! 모델 학습할 때 학습 데이터를 전처리 과정(라벨 인코딩, 스케일링 등) 과 하이퍼 파라미터 튜닝을 거쳐 모델을 생성하는데요. 이 후 실제 서비스에 사용(웹 서비스에 rest api로 제공) 할 때, 실제 input 값으로 들어오는 값들을 이용해서 예측을 한다고 이해했습니다.이 때 실제 input 데이터는 데이터 전처리가 진행이 안되어서 문자열 데이터도 들어오고, 스케일링 작업이 진행이 안된 데이터일 텐데 이 때 모델 api 호출 전 코드 레벨에서 전처리 과정을 해줘야 하는 걸까요?질문 드리는 이유는 사이킷런 라이브러리를 통한 전처리를 진행해서 모델을 생성했고, 해당 모델을 rest api로 제공 하고 싶습니다. 그리고 해당 api를 spring boot 웹 어플리케이션에서 호출하여 사용하고자 하는데이때 실제 input 값들을 spring boot 코드에서 동일하게 데이터 전처리를 하여 전달하는게 어색해 보여서요.실무에서는 어떻게 서비스 하는지 궁금합니다.LightGBM 을 베이지안 최적화를 통해 하이퍼 파라미터를 찾을 때, n_estimators=100 으로 축소하여 최적의 하이퍼 파라미터를 찾고 나서, 최종적으로 n_estimators=400으로 최적의 하이퍼 파라미터와 함께 모델을 학습한 예제를 봤습니다.n_estimators=100 을 통해 찾은 최적의 하이퍼 파라미터가 n_estimators=400으로 증가시켰을 때도 동일하게 최적의 하이퍼 파라미터라서 이렇게 보여주신걸까요? 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
조기중단기능(early stopping) 질문
안녕하세요. 좋은 강의 덕분에 많이 배우고 있습니다. XGBoost를 이용한 위스콘신 유방암 예측 강의에서 early stopping 기능에 대해서 설명 주셨고, 이는 검증 데이터를 기반으로 중단 할지 말지 판단한다고 이해했습니다.또한, 아래와 같이 학습 데이터, 검증 데이터 loss 값을 출력하여 확인해보면서, 검증 데이터가 더이상 감소하지 않는 구간이 있고설정한 early stopping 값만큼 감소하지 않는다면 중단한하고 이해했습니다.예제를 보면 train-logloss는 계속해서 감소하고 eval-logloss는 감소하지 않는 구간이 있는데똑같은 데이터를 나눈 것인데 차이가 발생하는 이유가 궁금합니다![0] train-logloss:0.65016 eval-logloss:0.66183 [1] train-logloss:0.61131 eval-logloss:0.63609 [2] train-logloss:0.57563 eval-logloss:0.61144 [3] train-logloss:0.54310 eval-logloss:0.59204강의에서 설명 주실때 학습 데이터는 계속해서 loss가 감소해서 오버피팅의 위험이 있기 때문에 early stopping은 검증 데이터로 진행해야 한다고 하셔서 이부분이 궁금합니다. 감사합니다.
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
Text Analysis 실습(Mercari Price Suggestion) 질문
안녕하세요. 좋은 강의 감사합니다.실전 텍스트 분석: 04 - Mercari Price Suggestion 피처 인코딩과 피처 벡터화 수행 ( 3분 ~ 4분)수업 진행 중에 질문이 있습니다.feature vectorization을 item description에 적용하는 건 이해가 되는데, name에 적용하는 이유가 있을까요?name 자체가 거의 유니크 하기 때문에 feature 로써의미가 없지 않을까 해서 질문드려요!(item description 같은 경우는 각 단어 별로 중복도 많이 생기고 패턴이 생겨서 예측에 도움이 될 거라 생각했고, name 같은경우는 거의 유니크해서 feature 자체에서 제외해야 하지 않을 까 하는데, 잘못 이해 하고 있을까요?) 또한, 예제는 회귀 모델을 보여주셨는데, 분류 모델에서도좋은 성능을 낼까요?비정형 데이터(텍스트 문서)와 정형 데이터를 합쳐서 예측 하는 경우 분류 모델 로도 많이 사용되는지 궁금합니다! 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
5.9 bike sharing demand에서 standardScaler
bike sharing demand예제에서 LinearRegression모델이 다른 모델에 비해 RMSLE가 큰 것이 Scaler문제는 아닌가 해서 StandardScaler를 다음과 같이 적용시켜 봤습니다만, 성능이 좋아지질 않는 것 같습니다.X_train, X_test, y_train, y_test = train_test_split(X_features_ohe, y_target_log, test_size = 0.3, random_state = 0) from sklearn.compose import ColumnTransformer from sklearn.preprocessing import StandardScaler from sklearn.pipeline import Pipeline def get_model_predict(model, X_train, X_test, y_train, y_test, is_expm1 = False, sts = False): if sts: ct = ColumnTransformer([ ('standard', StandardScaler(), ['temp', 'atemp', 'humidity', 'windspeed']) ], remainder = 'passthrough') model = Pipeline([ ('ct', ct), ('model', model) ]) model.fit(X_train, y_train) pred = model.predict(X_test) if is_expm1: y_test = np.expm1(y_test) pred = np.expm1(pred) print(model.__class__.__name__) evaluate_regr(y_test, pred)선형 모델임에도 불구하고 이게 통하지 않는것이 좀 의문입니다. 게다가 다른 모델에서는 성능이 나빠지기도 합니다.그리고 StandardScaler를 적용하기 전과 후의 coef_가 많이 다릅니다. 다음 그래프는 StandardScaler를 적용했을 때 LinearRegression의 coef_입니다.feature중요도 측면에서, StandardScaler를 적용한 후의 coef_가 더 믿을만 한지, 아니면 적용하지 않은게 더 믿을만 하다고 봐야하는지 궁금합니다.그래프 출력하는 코드는 다음과 같습니다.# X_features_ohe_sts ct = ColumnTransformer([ ('standard', StandardScaler(), ['temp', 'atemp', 'humidity', 'windspeed']) ], remainder = 'passthrough') model = Pipeline([ ('ct', ct), ('model', LinearRegression()) ]) # model = LinearRegression() model.fit(X_train, y_train) series = pd.Series(np.abs(model[-1].coef_), index = X_features_ohe.columns) series = series.sort_values(ascending = False)[:20] sns.barplot(series.values, series.index)
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
텍스트 분석 강의 질문
안녕하세요. 좋은 강의 감사합니다.현재 분류까지 강의를 수강한 상태이며, 그 이후 텍스트 분석 강의 부분을 먼저 수강하려고 하는데 질문이 있습니다.제가 아래와 같은 요구사항을 구현하고자 하는데 텍스트 분석 강의를 먼저 수강 하여도 구현이 가능할지 궁금합니다. 고객의 문의 데이터(채팅 등의 텍스트 데이터)를 이용하여, 급 상승하는 키워드를 detect 하고자 합니다.예를 들면, 마스크 같은 키워드는 코로나 이전에는 하루 평균 10번 이하로 등장했는데, 코로나 이후 하루 평균 1000번 이상 등장한 케이스가 있다고 가정 할 때를 예로 들 수 있습니다.위와 같은 키워드를 찾고 예측하고자 하는 니즈가 있는데, 해당 강의로(텍스트 분석) 커버가 가능 할까요? 감사합니다.
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
신용카드 사기 예측 실습 이상치 실습 질문
이상치 제거 할때 train set에서만 이상치를 제거해야 되지 않나요? 실습때는 train, test를 나누기 전에 이상치를 먼저 제거해서 test set에서도 제거 되는것 같습니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
외적에 대한 질문
안녕하세요 선생님알고리즘을 공부하다가 궁금한점이 있어서 물어봅니다선생님의 강의를 보면서 알고리즘을 더 이해를 하고 싶어서 선형대수도 공부를 하고 있는데 내적 같은 경우는 데이터 유사도나 합성곱 같은 계산에서 많이 보이는데외적 같은 경우는 어떤 경우에 쓰이는건지 궁금합니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
pd.get_dummies 질문있습니다
안녕하세요 ! 캐글 주택가격 예측 강의에서 dummy_na 옵션에 대해 설명해주셨는데코드를 보니 적용을 안하시던데 이유가 궁금합니다! 일반적으로 null 값이 있는 object 컬럼에 대해서 dummy_na에 따른 성능 차이가 존재하나요 ??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
8.6 토픽 모델링
선생님! 제가 토픽 모델링 부분 공부중인데 강의자료 8.6 부분을 그대로 돌렸는데 계속해서 'CountVectorizer' object has no attribute 'get_feature_names' 오류가 뜨네요?? 문제가 뭘까요ㅜ
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
xgboost/ light gbm 재학습 질문
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 선생님 안녕하세요. 수업을 듣다 질문이 있어 글을 남깁니다 ㅠㅠ XGboost 실습을 할 때는,xgb_wrapper.fit(X_train, y_train, verbose=True)xgb_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric="logloss",eval_set=evals, verbose=True)이렇게 재학습 시킬 때, X_tr, y_tr을 사용했는데lightgbm 실습을 할때는X_train, y_train으로 테스트 시키는 부분이 없어서 궁금합니다.. light gbm 실습 코드 ))X_train, X_test, y_train, y_test=train_test_split(X_features, y_label,test_size=0.2, random_state=156 )X_tr, X_val, y_tr, y_val= train_test_split(X_train, y_train,test_size=0.1, random_state=156 )lgbm_wrapper = LGBMClassifier(n_estimators=400, learning_rate=0.05) evals = [(X_tr, y_tr), (X_val, y_val)]lgbm_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric="logloss",eval_set=evals, verbose=True)
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
4장 신규추가된 feature selection_basic에서 1째 코드에 에러 발생합니다.
4장 신규추가된 feature selection 강의에서 1번째 코드에서 다음과 같은 오류가 뜨는데요... 제 사이킷런 버전은 1.2.2 입니다. --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) Cell In[6], line 25 23 plt.xlabel("Number of features selected") 24 plt.ylabel("Cross validation score (nb of correct classifications)") ---> 25 plt.plot(range(1, len(rfecv.grid_scores_) + 1), rfecv.grid_scores_) 26 plt.show() AttributeError: 'RFECV' object has no attribute 'grid_scores_'혹시 가능한 명령어가 뭐가 있는지 검색해 보았는데, 아래와 같이 뜹니다. 대체될 수 있는 명령어가 뭐가 있을까요?[x for x in dir(rfecv) if not x.startswith('_')][11]:['classes_', 'cv', 'cv_results_', 'decision_function', 'estimator', 'estimator_', 'fit', 'fit_transform', 'get_feature_names_out', 'get_params', 'get_support', 'importance_getter', 'inverse_transform', 'min_features_to_select', 'n_features_', 'n_features_in_', 'n_jobs', 'predict', 'predict_log_proba', 'predict_proba', 'ranking_', 'score', 'scoring', 'set_output', 'set_params', 'step', 'support_', 'transform', 'verbose']
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
graphviz 설치 후 에러메시지..문의드립니다.
graphviz 설치하고 실습파일 4-2의 3번째줄까지 코드를 작성하면 '[Errno 13] Permission denied: PosixPath('dot')' 가 발생합니다. 해결방법을 알 수 있을까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
실루엣 값을 기준으로 필터한 값을 target값으로 선정
안녕하세요. 교수님. 이번 강의를 보면서 실루엣 값과 각 군집의 평균값에 대개 배웠는데요. 이렇게 구해진 각 값들의 실루엣 계수들에 대해 어느정도 값을 기준으로 필터링하여 해당 클러스터된 각 데이터를 target 값으로 사용하여 다른 데이터의 회귀분석 예측모델을 사용하려는 생각을 조금 해보았는데 이런 진행 방식이 맞는걸까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
PCA 3개이상에서의 2차원 군집화시 의미
안녕하세요. 강의를 듣고있는 학생입니다.강의에서는 PCA1과 PCA2를 기반으로 2차원에서 군집분류를 하는데 PCA가 3이상이 있을 경우에 PCA2와 PCA3을 2차원으로 하여 시각화를 하는 건 의미가 있을까요?