월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
StratifiedKFold 질문
안녕하세요 저는 아래 질문과 다르게 StatifiedKFold 부분이 검증 데이터가 51 51 48이 아니라 100 50 #1 교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50 #1 검증 세트 인덱스: [ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115] 100 50 #2 교차 검증 정확도: 0.94, 학습 데이터 크기: 100, 검증 데이터 크기: 50 #2 검증 세트 인덱스: [ 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132] 100 50 #3 교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50 #3 검증 세트 인덱스: [ 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149] ## 교차 검증 정확도: [0.98 0.94 0.98] ## 평균 검증 정확도: 0.9666666666666667이렇게 50, 50, 50 순으로 나옵니다.버전차이일까요??왜 저는 51 51 48이 아닌지 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV에서 찾은 최적의 cv 횟수 적용
GridSearchCV를 학습해보고 있습니다. 여러 모델 파라미터를 튜닝하며 하이퍼파리미터 튜닝을 해보고 있는데 GridSearchCV 에 cv= 횟수에 따라 스코어와 파라미터가 달라지는것을 확인했습니다. 그래서 최고의 스코어, 그 스코어가 나오는 모델, 파라미터, cv 횟수를 구했는데 모델과 파라미터는 적용했는데 cv 횟수는 그냥 참고용인가요? 모델에 적용할 수 있는 건데 제가 방법을 모르는건지 문의드립니다. 아래 이미지를 예로 들면 Logistic Regression에 cv=5 일때 스코어가 제일 좋아서 그 파라미터로 모델을 재설정했고 모델을 fit 하려고 보니 cv=5일때 적용이 가능한지가 궁금합니다. # 모델 재설정 log = LogisticRegression(random_state=42, C=2.7825594022071245, max_iter=400, multi_class='auto', penalty='l2', solver='lbfgs') # 모델 학습 log.fit(train[cols], target)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
fit & transform
train set에 fit 한 countvectorizer을 그대로 test set에 이용해야한다는 점은 이해가 가는데, 텍스트 분석의 경우 단어하나하나가 feature가 되는데 만약 train set에는 없고, test set에만 있는 단어는 어떻게 처리가 되나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
tokenizer 인자
TfidfVectorizer의 tokenizer 인자에 twitter.morphs를 넣으면 작동이 안되나요? 시간이 오래 걸려 여쭤봅니다~
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
graphviz 설치
안녕하세요. graphviz를 설치후에도 오류가 떠서 문의드립니다. 우선 graphviz사이트에 들어가서 graphviz 2.38 msi 파일을 찾았는데 없어서 graphviz 2.44.1 msi 파일을 받고 쭉 설치했습니다. 그런데 graphviz파일이 Program Files에 저장됐습니다. (x86) 말구요! 그래서 환경변수를 (x86) 대신 Program Files로 넣고 나머지는 그대로 했는데 실행이 안됩니다.. 그래서 Graphviz파일을 (x86)으로 옮긴다음에 환경변수를 (x86)으로 바꿔서 해도 안 되구요 ㅠㅠㅠ <div><br class="Apple-interchange-newline">import graphviz with open('tree.dot') as f: dot_graph = f.read() graphviz.Source(dot_graph)</div> import graphviz with open('tree.dot') as f: dot_graph = f.read() graphviz.Source(dot_graph) Format: "svg" not recognized. Use one of: --------------------------------------------------------------------------- CalledProcessError Traceback (most recent call last) ~\anaconda3.1\lib\site-packages\IPython\core\formatters.py in __call__(self, obj) 343 method = get_real_method(obj, self.print_method) 344 if method is not None: --> 345 return method() 346 return None 347 else: ~\anaconda3.1\lib\site-packages\graphviz\files.py in _repr_svg_(self) 111 112 def _repr_svg_(self): --> 113 return self.pipe(format='svg').decode(self._encoding) 114 115 def pipe(self, format=None, renderer=None, formatter=None, quiet=False): ~\anaconda3.1\lib\site-packages\graphviz\files.py in pipe(self, format, renderer, formatter, quiet) 136 out = backend.pipe(self._engine, format, data, 137 renderer=renderer, formatter=formatter, --> 138 quiet=quiet) 139 140 return out ~\anaconda3.1\lib\site-packages\graphviz\backend.py in pipe(engine, format, data, renderer, formatter, quiet) 242 """ 243 cmd, _ = command(engine, format, None, renderer, formatter) --> 244 out, _ = run(cmd, input=data, capture_output=True, check=True, quiet=quiet) 245 return out 246 ~\anaconda3.1\lib\site-packages\graphviz\backend.py in run(cmd, input, capture_output, check, encoding, quiet, **kwargs) 182 if check and proc.returncode: 183 raise CalledProcessError(proc.returncode, cmd, --> 184 output=out, stderr=err) 185 186 return out, err CalledProcessError: Command '['dot', '-Tsvg']' returned non-zero exit status 1. [stderr: b'Format: "svg" not recognized. Use one of:\r\n'] Out[3]: <graphviz.files.Source at 0x1b731337808>이런 에러가 납니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
주피터 노트북 런칭 에러(실습 진행을 못하고 있습니다..)
안녕하세요 선생님. 다름이 아니라 제가 윈도우를 10으로 업데이트하면서 아나콘다를 재설치했는데, 설치 완료 후 다음과 같은 에러가 발생합니다.. 주피터 노트북을 실행하면 위와 같이 런칭 에러가 발생하는데요...구글링을 해서 하라는대로 해보기도 하고, 아나콘다를 제거 후 재설치를 해봐도 해결이 되지않습니다. 저 에러 때문에 실습 진행을 못하고 있네요 ㅠㅠ 혹시 해결책이 있을까요..?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
사이킷런-타이타닉 예측 스케일링 질문드립니다.
"사이킷런" 섹션 마지막 파트 타이타닉 실습에서 코드를 입력해보니 이렇게 알고리즘 별 정확도가 출력이 되긴 하지만, 밑에 빨간색으로 data를 스케일하라고 뜹니다. (밑에 이미지 첨부) 이 실습이 그 전에 배웠던 '사이킷런' 학습 과정을 적용해보는 것인데 스케일링은 적용을 안해서 그런지 오류가 나는 것 같습니다. 그래서 제가 그냥 X_scaled = preprocessing.scale(X_train) 를 추가하고, X_train들을 x_scaled라고 바꿔서 알고리즘을 다시 시행해 본 결과 빨간 오류 표시 없이 결과가 잘 나오는데, 대신 정확도가 급격하게 떨어졌습니다. DecisionTreeClassifier 정확도: 0.3743 RandomForestClassifier 정확도:0.6592 LogisticRegression 정확도: 0.6592 라고 나오네요... 1. 이렇게 스케일링을 하는 것이 맞나요? 2. 정확도가 왜 떨어지나요?
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
could not convert string to float 에러..
안녕하세요. 사이킷런 알고리즘을 적용하는 단계에서 에러가 나는데 도저히 모르겠습니다. 그리고 궁금한게 titanic_df 를 레이블 인코딩하여 학습/검증 데이터셋으로 분리를 하고나서 X_titanic_df를 확인해보았는데요. 처음에 레이블인코딩했을때는 이렇게 데이터들이 인코딩한 숫자로 나오는데 바로 다음에 위와같이 Null데이터를 처리하고 X_titanic_df 를 확인해보면 레이블인코딩했던게 기존의 문자열로 돌아와있습니다 ㅠㅠ 원래 이런건가요? 혹시 이것때문에 뒤에서 에러가 나는 것인지.. 제가 정말 초보고 거의 이 강의로 코딩세계에 입문한다고 보아도 될 정도라서 에러가 났을 때 알아차리기 힘드네요 ..
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV 하이퍼파라미터설정
GridSearchCV에서 하이퍼파라미터 세트를 지정할때 max_depth는 1,2,3 / min_samples_split은 2,3으로 지정했는데 이걸 1~10 / 2~10 이런식으로 개수를 늘리게 되면 더 최적의 하이퍼파라미터를 찾을 수 있지만 시간(?)이 오래걸려서 그렇게 하지 않는건가요?? 어떤 수를 넣을지는 어떻게 결정하나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
이산적인(discrete) 데이터에 관한 질문
안녕하세요. 혼자 선형회귀를 돌려보려다가 제 데이터셋에 이산적인 데이터가 너무 많은 걸 깨달았습니다. 한 피쳐에 값이 4개 정도의 숫자로 이루어져 있는데, 이러한 피쳐가 굉장히 많이 있네요. 처음엔 그냥 continuous 데이터와 마찬가지로 표준화를 하고 학습을 시켰습니다. 그러고 생각을 해보니 원핫인코딩을 해야할 거 같기도 하고.. 원핫 인코딩을 한다면 10개정도의 numerical 데이터가 있는 피쳐도 똑같이 원핫 인코딩을 해야하는건지... 이 데이터를 어떻게 처리하는게 좋을까요? 이렇게 이산적인 데이터 피쳐가 많다면 선형회귀가 힘들까요?? 원래는 continuous해야하는 데이터지만 데이터 수집에 한계를 느껴서 같은 값을 입력한 row가 많습니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
gridSearchCV의 best estimator
코드에 따라 refit=True 설정하고 학습데이터를 fit하여 test데이터를 예측할 때 1) estimator = gridmodel.best_estimator_ 후 pred = estimator.predict(X_test) 하는 경우도 있고, 바로 2) pred = gridmodel.predict(X_test) 하는 경우도 있는데, Q1) refit= True설정하고 학습데이터를 fit하면 둘은 항상 같은 결과를 반환하나요? 해보니 그런거같긴한데.... Q2) refit이 False라면 둘 다 사용을 못하는 건가요?
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
train_test_split에서 random_state는 임의로 정하나요?
train_test_split도 그렇고 결정트리함수도 그렇고 random_state는 아무 숫자나 넣어도 되나요?! 데이터분할시 무작위로 데이터를 분리하기 때문에 호출할 때마다 동일한 학습/테스트용 데이터세트를 생성하기 위해 난수를 정한다고 하셨는데요!! 꼭 어떤 수를 넣어야 되는건지, 임의로 수를 넣어도 상관 없는건지 헷갈립니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
군집화 알고리즘 유형
1. 군집화 알고리즘은 분류와 회귀문제 유형에 상관없이 쓸 수 있는 것인가요?(회귀문제에서도 군집화가 사용 가능한가요?) 2. 알고리즘 유형이 분류, 회귀, pca, 군집화 알고리즘 유형으로 나눠지는 것인가요?(캐글 문제를 풀다보니 어느 알고리즘을 어느 경우(상황)에 사용하는지 궁금증이 생기는 것 같습니다.)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
pca사용하는 경우
1. 분류와 회귀 알고리즘은 문제 유형에 맞게 사용하면 될것 같은데, pca같은 경우는 전처리? 피처엔지니어링? 과 같은 부분에서 사용하는 알고리즘 인가요? 캐글을 풀다보니 pca는 어느 부분에서 사용해야하는지가 명확히 잡히지 않는 것 같습니다. 2. pca가 보통 분류와 회귀처럼 또 다른 종류의 알고리즘인건지아니면 그냥 데이터 전처리?용으로 사용하기 위한 알고리즘인지 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
미니콘다
안녕하세요 . 강의를 듣는도중 아나콘다를 설치하셨는데 , 저는 백엔드 작업을 하고있습니다. 아나콘다를 사용하지 않고 miniconda 를 사용하여 , conda env list conda activate [가상환경이름 ] 이렇게 작업을 했었는데요 . 아직 신입이라 정확히 몰라서 miniconda 를 사용해서는 안되는지... 만약 anaconda 를 사용해야한다면 miniconda 덮어지는건가요 ??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
새로운 데이터에 대한 실제 분류 값
지금까지 분류모델의 정확도나 정밀도 f1스코어 등을 높여서 모델의 성능을 높이는 방법을 배웠는데요 모델의 성능을 높인 후에 실제 데이터에 대한 분류 값을 알고 싶을 때는 어떻게 해야하나요? 예를 들면 과거에 대한 데이터로 모델을 만들고 여러 방법으로 성능을 높인 후에 새로운 데이터에 대한 분류 값이 0인지 1인지 아는 방법이 무엇인지 궁금합니다. 지금까지는 성능에 대한 결과만 보이는 것 같아서 질문 드립니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
데이터 정규분포
데이터를 정규분포 가깝게 변환시켜주는 이유가 궁금합니다. 데이터의 feature마다 단위가 달라서 그런건가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
xgboost 예측 질문
xgboost에서 pred proba 말고 그냥 pred = xgb.predict(X_test)만으로 예측하면 안되나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
스태킹 모델 질문
1. 스태킹 모델에서 개별 모델 입력할 때 최종 모델에 사용할 알고리즘은 개별 모델에서 사용하면 안되는 것인가요? 2. 스태킹 앙상블이나 보팅분류기에서 gridsearchcv를 통해 튜닝된 하이퍼 파라미터를 적용한 알고리즘을 대입해야 하나요? 아니면 튜닝 전 알고리즘을 대입해야 하나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
보팅 분류기
보팅 분류기도 gridsearch cv가 가능한가요?