월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
Randomforest와 grid_cv 관련 부분
안녕하세요. 강의 제목으로는 '배깅(Bagging)의 이해와 랜덤 포레스트(Random Forest) 소개 및 실습' 부분이며 책으로는 20년 12월 3일 4쇄기준으로 220page와 221page에 있는 내용의 소스인데 하나는 grid_cv.fit을 통해서 GrideSearchCV에 rf_clf를 넣어서 학습하는데 221page에는 rf_clf1.fit을 통해서 RandomForestClassifier를 그 자체를 학습시키잖아요. 이는 그리드서치와 랜덤포레스트 두개의 성능을 비교하기 위해서 다른 방식으로 테스트 한 것인지 궁금합니다.
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
질문입니다.
비전공자라서 이해가 안되서 질문드립니다..ㅠㅠ SVD와 경사하강법은 이전 수업을 통해서 익혔는데 SVD에서 missing value가 있는데 왜 경사하강법을 통해 그 값을 구하는 건가요?? svd는 행렬이고 경사하강법은 차원적 의미 아닌가요?...
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV 부분과 K fold 관련 질문 드립니다.
안녕하세요. 수업을 잘 듣고 있는 학생입니다. 질문이 있어서 질문을 남깁니다. 첫번째 질문은, stratified K fold 부분을 설명해주실 때, stratified k fold 를 안쓰고 k fold만 쓰게 된다면, train set에 label 이 0,1 데이터 50개씩만 들어가고 test set에는 label 이 2만 들어가있는 데이터 50개만 들어가서 predict 가 제대로 할 수 없다(예측 정확도가 0)고 하셨는데 이 부분은 이해가 됩니다. 근데 직전 강의에서 iris데이터 가지고 stratified가 아닌 그냥 K fold를 써서 예측 정확도 0.9333을 얻은 것 아닌가요? 두 번째 질문은, GridSearchCV 설명 부분에서 제 사이킷 런 버전(2점대 버전)으로는 mean_test_score가 0.9666이 아닌 0.975가 나옵니다. 이것은 버전이 업그레이드 되어서 더 좋은 알고리즘(?)으로 능력치가 향상된것인지? 그런데 또 GridSearchCV 최고 정확도: 0.975, 테스트 데이터 세트 정확도: 0.9667 는 각각 이렇게 나오네요. 왜 두개가 서로 다른것인지도 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
why3
강의에서 보면 AUC 값이 다 같습니다. LogisticRegression의 기본 설정 임계값이 0.5라서 그런건가요? 그렇다면 AUC값을 임계값마다 바꾸는 방법은 무엇인가요?
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
opinion_text 질문 입니다.
제 주피터 노트북으로 하다가 opinion_text가 출력이 안되길래 강사님의 주피터 노트북에서 경로만 바꿔서 했는데도 그림과 같이 opinion_text이 출력이 되지 않 습니다..
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
오타인지 궁금하여 질문드립니다.
안녕하세요 좋은 강의를 해주셔서 열심히 듣고있는 학생입니다. 다름이 아니라 수강 중에 궁금한 것이 생겨 질문 드립니다. 강의 분류파트에서 분류 실습 1: 캐글경연대회의 산탄데르 은행 고객 만족 예측 강의 중 약 15:10 경에 LGBM_clf = LGBMClassifier(n_estimators=200) 이라고 적혀져 있습니다. 밑에 gridsearchcv를 수행할 때는 레이블 값으로 lgbm_clf를 넣어 주셨는데요. 혹시 오타로 잘못 기재된것인지 궁금하여 여쭤봅니다. 그리고 16:15 경에 subsample 파라미터가 sumbsample로 입력되어 실행되는 것을 보았습니다. 만약 이게 오타라고 한다면, 파라미터가 오타로 잘못 입력되어도 에러가 안뜨고 적용되어 실행될 수 있는 건지 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
분류 성능 평가지표 개요와 정확도 소개
class MyDummyClassifier에서 fit은 그냥 pass로 아무 역할도 하지 않는다고 했는데 myclf = MyDummyClassifier() myclf.fit(X_train ,y_train) 처럼 굳이 myclf.fit을 해주는 이유는 뭔가요??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
지니계수
안녕하세요 선생님께서 해당 강의의 다른 질문 댓글에 책에 있는대로 지니 계수가 낮은 속성을 기준으로 분할한다고 설명해주셨는데 제 책에는 "...지니계수가 높은 속성을 기준으로 분할하는 것입니다."라고 나오는데 제 책이 잘못된걸까요? 제가 이해한 바로는 지니계수가 낮으면 데이터 균일도가 낮으며 다양성이 높다고 해석됩니다. 이때는 지니계수가 0에 가깝고요. 반대로 데이터 균일도가 높을 때는 지니계수가 1에 가까우며 데이터 다양성이 낮다고 판단됩니다. 제가 잘못이해한 부분이 있다면 설명 부탁드려도 될까요?
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
4분 10초쯤 질문드립니다!
혹시 labelbinarizer 사용 시 각 피처들 마다 이름을 바꾸면서 labelbinarizer 를 선언하고 사용한 이유가 있나요?? 그냥 하나의 labelbinarizer 를 선언하고 각 피처들에 적용하면 에러가 발생하나요??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
미니배치 확률적 경사 하강법
해당 강의와 책에서 미니 배치 확률적 경사하강법이 일반 경사하강법과 비교하였을 떄, 성능 또는 예측 오류 비용의 차이가 거의없으며, 전자가 샘플링을 했기때문에 더 빠른 시간안에 구해졌다고이해했습니다. 그런데 구현한 두 함수를 time.time() 을 이용해서 시간 비교를 iters=100000 을 두고 했는데 경사하강법이 더 빠른 시간안에 결과를 도출하던데 10만개의 데이터가 작아서 생기는 문제인가요 아니면 time 패키지를 써서 생기는 문제인가요 아니면 미니배치 확률적 경사하강법이 항상 빠른게 아닌 것 인가요? + 추가로, p300~301 예제에서 prev_cost 와 iter_index 는 왜 생성하신 건가요? 혹시 사용한 코드가 누락된게 아닐까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
다차원 feature selection 방법에 대해
안녕하세요. 강의자님. 계속해서 업데이트되는 강의로 많이 배우고 있습니다. 다름이 아니라, feature selection을 통해 개인 프로젝트에 적용하는 과정에서 dimension 오류를 겪게 되었습니다. 오류를 살펴보니, permutation_importance는 2차원 데이터셋에만 적용될 수 있는것 같습니다. 제가 주로 다루는 데이터셋이 3차원 time-series 데이터이다 보니, scikit-learn에는 3dim 관련 모델이 적어, keras로 LSTM 모델을 만들고 kerasClassifier Wrapper로 model을 감싸서 이용을 하고 있으며, 이를 통해 scikit-learn의 교차학습이나, feature selection을 진행하고자 하였습니다. 하지만 3차원 데이터 셋의 일반적인 feature selection은 다루기 힘들어 질문드리게 되었습니다. 지금은 우선 모델 자체의 예측 (Classification) 과는 상관없이 feature 들의 correlation matrix를 이용해 상관도가 높은 feature을 제거하는 preprocessing 개념의 feature engineering 만 하고 있습니다. 질문을 요약하면, 1. 지금하고 있는 preprocessing 개념의 feature selection이 큰 의의가 있는지? 2. 3차원 데이터셋의 경우 사용할 수 있는 feature engineering이 있을지 ? 수업의 진도와 많이 벗어난것 같아 질문이 조심스럽지만, 아주 단순한 의견이라도 제시해주시면 감사하겠습니다. 감사합니다.
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
java.lang.UnsatisfiedLinkError
안녕하세요 잘 보다가 에러가 나서 문의드립니다 ㅠㅠ 강의는 7:52초입니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
경고 문구 질문드려요
안녕하세요 보스턴 주택가격 예측 실습을 하던 중에 자꾸만 경고문이 떠서 질문드렸습니다. 실습대로 LinearRegression, Ridge, Lasso의 RMSE 값 리스트와 평균 RMSE를 구했을 뿐인데 자꾸 저런 경고문이 뜨네요. 저게 뭘 의미하는 것인지, 그리고 어떻게하면 해결할 수 있을까요?
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
XGBClassifier의 default 파라미터 값 질문
241페이지 예시에서는 XGBClassifier의 learning_rate를 0.1과 max_depth=3으로 지정을 했는데, 257페이지에서는 XGBClassifier의 learning_rate와 max_depth를 따로 지정해주지 않았는데, default값이 따로 있는지 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
Target값 비율이 다를 경우 랜덤포레스트 사용 가능여부
안녕하세요 선생님, 수업 매우 잘 듣고 있습니다. 다름이 아니라, 해당 내용을 배우며 다른 데이터에 적용하는 과정에서 궁금한 점이 생겼어요. 랜덤포레스트를 활용하고 싶은데, 만약 Target값이 0과1과 2라고 가정하겠습니다. 이때, 0,1,2의 개수 비율이 5 : 2.5 : 2.5이면, y_train의 비율도 대략 5 : 2.5 : 2.5정도로 나오더라고요. 그런데 문득, '이렇게 Target값의 비율이 조금 다른 경우에도 랜덤포레스트를 그대로 적용할 수 있는가'에 대한 궁금증이 생겨서요. 이럴 경우 다른 조치를 취하지 않고, 강의대로 모델을 그대로 적용해도 성능에는 이상이 없을까요? 답변 기다리겠습니다, 감사합니다.
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
사이킷런 래퍼 XGBoost
파이썬 래퍼 XGBoost에서는 objective라는 파라미터를 train의 인자로 넣어주었습니다. 1) 그렇다면 사이킷런 래퍼 XGBoost에서는 objective에 해당하는 인자가 없는건가요? 만약 default값으로 설정이 되어있다면, 어떤 값으로 설정되어있나요? 2) 책에서는(232pg) XGBoost의 objective는 최솟값을 가져야할 손실 함수를 정의한다고 하는데, 손실함수는 eval_metric에 사용되는 함수들이고 objective는 다르게 해석해야 하지 않을까 헷갈립니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
visual build tool 2015 이 안깔려있으면 어떻게 되냐요?
단순히 궁금해서 질문드려요 1장을 스킵했는데도 lightGBM 이 설치돼서요;;
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
nlp 군집화 실습
여기 문서 군집화 소개와 실습(Opinion Review 데이터 세트)에서요 import pandas as pd import glob, os path = r'/content/gdrive/My Drive/MachineLearning/OpinosisDataset1.0/topics' all_files = glob.glob(os.path.join(path, "*.data")) filename_list = [] opinion_text = [] for file_ in all_files: df2 = pd.read_table(file_, index_col=None, header=0, encoding='latin1') filename_ = file_.split('/')[-1] filename = filename_.split('.')[0] filename_list.append(filename) opinion_text.append(df2.to_string()) document_df = pd.DataFrame({'filename':filename_list, 'opinion_text':opinion_text}) document_df.head() document_df.dtypes document_df['opinion_text'] 이렇게 치면 opinion_text 가 보이지 않고 opinion_text.append(df2.to_string()) 여기서 to_string() 을 없애면 잘 보이는데 이 to_string() 의 의미와 역할이 궁금하고 from sklearn.feature_extraction.text import TfidfVectorizer tfidf_vect = TfidfVectorizer(tokenizer=LemNormalize, stop_words='english' ,ngram_range=(1,2), min_df=0.05, max_df=0.85 ) feature_vect = tfidf_vect.fit_transform(document_df['opinion_text']) feature_vect 이 구문에서 feature_vect = tfidf_vect.fit_transform(document_df['opinion_text']) 여기에서 'DataFrame' object has no attribute 'lower'오류가 뜨는데 이유가 뭘까요.. 이것만 하루죙일 고민했는데 답이 안나오네요
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
과적합과 eta
233페이지에 과적합 문제가 심각하다면 eta값을 낮추라고 했는데, 학습률은 overshooting과 local minima문제와 관련된 것이지, 과적합과는 관계가 없는 것 아닌가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
casual 과 registered 를 drop하는거에 관해 질문이 있습니다.
안녕하세요! 올려주신 노트북을 따라하던 와중에 causual과 registered가 쓸모있을 수도 있는 정보라 생각해 삭제하지 않았습니다. 이 경우 교재에 나와 있듯이 rmsle, rmse등 모든 오류값들이 극히 작게 나오면서 예측을 저해시킵니다. 왜 그런거죠? 그렇다면 예약 이용자와 비예약 이용자 정보는 예측에 불필요한 쓸모없는 값인가요? 감사합니다.