월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
과적합과 eta
233페이지에 과적합 문제가 심각하다면 eta값을 낮추라고 했는데, 학습률은 overshooting과 local minima문제와 관련된 것이지, 과적합과는 관계가 없는 것 아닌가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
casual 과 registered 를 drop하는거에 관해 질문이 있습니다.
안녕하세요! 올려주신 노트북을 따라하던 와중에 causual과 registered가 쓸모있을 수도 있는 정보라 생각해 삭제하지 않았습니다. 이 경우 교재에 나와 있듯이 rmsle, rmse등 모든 오류값들이 극히 작게 나오면서 예측을 저해시킵니다. 왜 그런거죠? 그렇다면 예약 이용자와 비예약 이용자 정보는 예측에 불필요한 쓸모없는 값인가요? 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
범주형 변수 질문입니다.
안녕하세요! 항상 좋은 강의를 제공해주셔서 정말 감사드립니다. 다름이 아니라, 강의를 듣고 별도의 데이터로 실습을 해보고자, 타겟 변수(종속 변수)가 명목형 범주형 변수이고, 독립 변수(예측 변수)가 범주형 변수, 연속형 변수가 섞여져 있는 상황에서 분석 공부를 하다가 궁금한 점이 생겨 질문을 드리게 되었습니다. 1) 독립 변수 중 범주형 변수 중에서, 명목 척도가 아닌 순서 척도를 활용해야 하는 상황인 경우, 원-핫 인코딩으로 진행을 하게 되면 '순서'의 정보를 잃게 되는데, 캐글에서는 ordinal encoding, mean encoding 혹은 target encoding 등을 자주 활용한다고 들었습니다. 보통 분석에서 범주형 변수를 다룰 시, 명목 척도와 순서 척도를 구분하여 서로 다른 인코딩을 적용하는지, 아니면 구분하지 않고 하나의 인코딩을 적용하는지 알고 싶습니다. 2)스케일링에서, 범주형 변수를 인코딩한 후 값이 큰 연속형 변수와 같이 스케일링을 수행해도 되는 것인지, 아니면 스케일링을 연속형 변수에만 수행하는 것인지 알고 싶습니다. 3) corr() 함수는 보통 연속 변수 & 연속 변수 혹은 범주형 순서 척도 & 범주형 순서 척도에 대한 피어슨 상관 계수를 출력하는 것으로 알고 있는데, binary가 아닌 범주형 명목 척도 & 연속형 변수, 그리고 범주형 순서 척도 & 연속형 변수에 대한 상관도는 어떻게 구하는지 알고 싶습니다. 항상 좋은 강의 감사드립니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
StandardScaler 부분 코드에 대해서 질문 있습니다.
StandardScaler 부분 코드를 자세히 읽어보니 get_preprocessed_df 함수를 정의하셨는데, 밑의 코드를 보니 그 함수를 적용하지 않고 바로 card_df를 이용하여 다시 학습을 시키신거 같은데 그렇게 되면 원본 Amount 속성의 값은 변화가 없게 되는거 아닌가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
IQR 관련 질문
outlier_index = fraud[(fraud < lowest_val) | (fraud > highest_val)].index 신용카드 사기 예측 실습 - 01 수업에서는 IQR을 설명해주시면서 이상치는 최대값 이상, 최소값 이하 라고 하셨는데, 그러면 코드가 fraud <= lowest_val, fraud >= highest_val 이 되어야하는거 아닌가요? 왜 실습에서는 미만/초과로 이상치를 설정하셨는지 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
하이퍼 파라미터
해당 강의와 책p.209 를 공부하는 중입니다. 혹시 하이퍼 파라미터를 적용 할 때 책의 예제와 같이 max_depth 와 min_samples_split 를 조정해서 GridSearchCV 를 통해 정확도를 측정 할 때 책에서는 최적의 파라미터가 8,16 이라 나왔지만 제가 실습했을 때는 8,24 가 나왔는데 그럴수도 있는건가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
XGBoost나 LightGBM의 eval_set질문
evaluation 데이터로는 과적합 문제때문에 test셋을 사용하면 안 된다고 재차 설명을 해주셨는데, 만약 test셋을 사용하지 않으면 어떻게 evaluation데이터를 찾아내어 사용해야 되는지, 또한(문제마다 다르겠지만) 다른 문제에서 evalution데이터를 어떻게 구해야 하는지 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
test data를 예측할때 scaling 질문
train data를 train과 test로 나누어 학습과 검증을 하게 되는데 이후 실제 예측을 하기 위한 test data 에도 train 데이터에서 해서 했던 데이터 스케일링과 같은 작업은 동일하게 해줘야 하나요?? 그리고 해당 강의에서 grid search cv를 수행할때 eval set에는 train 데이터를 train 과 validation으로 나누고 해당 train을 또 test로 나누어서 eval set에 넣어야 하나요??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
안녕하세요
안녕하세요. 정신없이 듣다보니 중요한걸 놓친거 같아 질문드립니다. 현재 선형회귀 비슷한 모델을 데이터를 구해서 연습삼아 만들어본뒤 실제 데이터 몇개를 넣어서 얼마나 잘되는지…결과값을 받아 보려고 하고있는데 이 몇 개의 테스트 데이터 (타겟값 제외)를 아래 어디다가 넣어야할지를 모르겠습니다 (csv파일) Predict로 결과값을 받아보려고 할 때, X_test와 y_test에 넣으면 되는걸까요? X_train X_test y_trian y_test 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
ROC_AUC_score
피마 인더언 당뇨병 예측 파트 책 기준 p.181 쪽에서 ROC AUC 수치의 경우에는 Binarizier 을 적용하지 않은 수치가 나왔고, p.181~182 넘어가는 예제에서도 다른 평가지표에는 바이너리져를 적용했지만 roc_auc 에는 적용이 안되어 있습니다. 혹시 roc auc에는 바이너리저를 적용하면 안되는 것인가요? 아니면 그저 적용을 안시켜둔 것인가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
안녕하세요 -함수관련 질문입니다.
안녕하세요 선생님. 함수만드는 부분에서 궁금한점이 있어서요. 함수를 만들때 함수 인자값에, 적용할 이름만 넣어주는 것과, 이름 = None 이렇게적는것과 어떻게 달라지느 것인지 잘모르겠습니다. 예를 들면 def get_clf_eval(y_test, pred=None, pred_proba=None): 이런식에서 앞에 y_test 와 나머지 None을 붙였을 때의 차이가 궁금합니다.
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
안녕하세요 강사님
np.dot 연산을 할때 뒤에 배열의 모양은 항상 np.dot((1,n),(n,1))이런 식으로 나와야하나요? 그렇다면 get_weight_updates함수 생성시 w0_update에서 diff에 w0_factors를 dot연산을 해준건 단순히 dot연산을 하고 각자의 값을 그대로 받기 위해 w0_factors를 생성해준건가요??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearch 질문입니다.
안녕하세요 GridSearch 가 어떻게 작동되는지 많이 햇갈려서요 예제코드가 iris data 값들을 파라미터값들인 깊이 와 split 으로 분할해서 학습시키는것이 맞는지요? 그리고 학습시키고 예측은 어느부분에서 실행되는것인지요 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
get_eval_by_threshold 에서의 오류
Input contains NaN, infinity or a value too large for dtype('float64')이런 에러가 납니다 get_clf_eval 내부에 있는 roc_auc = roc_auc_score(y_test,pred_proba)의 pred_proba 부분을 pred로 바꾸면 오류가 안나는데 어떤부분이 문제인지 모르겠습니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
idle에서의 오류 문의드려요!
jupyter 노트북으로 입력했을때는 오류가 없는데 파이썬 idle(python 3.7.0 shell)에 이들을 입력하니 다음과 같은 오류가 납니다. 이는 신경 안써도 될까요??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
F1 스코어 질문이요!
F1 스코어는 정밀도와 재현율이 어느 한쪽으로 치우치지 않을때 좋은 값을 가진다고 설명해주셨는데 예제의 결과 값을 보면은 0.42랑 0.45를 비교해보면은 0.45 가될때 정밀도로 더 치우치게 되더라구요.. F1값이 왜 더 커지게 되는건가요 ? 0.45랑 0.48을 비교하더라도 정밀도와 재현율이 정밀도로 더 크게 치우치게 되는데 F1값이 더크게 되는데 의문이 생겨 질문 드립니다. ! 치우친다는 말의 의미가 궁금합니다.. F1이라는것을 식으로 계산해보면은 증가한다는것을 이해했습니다. 하지만 치우친다는것은 두 값의 차이가 날때를 치우친다고 저는 이해를 하고 예제 데이터를 보았는데 값이 차이가 커졌지만 F1이 증가하는 현상을 볼수 있었습니다. 치우친다는것이 정확하게 어떤 의미인지 알고싶습니다 ! 읽어주셔서 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
균일한 데이터 셋은 그럼 반반인 데이터인가요?
불균일한 데이터셋이라는 게 바로 와닿지가 않네요 4:49
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
graphviz 설치 오류
안녕하세요. graphviz 설치하려고 하는 우선 선생님과 같은 화면이 뜨지 않고 .msi 로 된 파일도 뜨지 않습니다. 구글링 해봐도 저와같은 오류를 가진 케이스는 없는 것 같네요ㅠ 어떻게 해야 할까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
안녕하세요 불린인덱싱에대해 질문드립니다
안녕하세요 위 그림과같이 cond1 , cond2, cond3의 조건을 모두 만족하는 행을 뽑아내셨는데 cond1 or cond2 or cond3 와 같은 조건을 한번에 뽑아내는 방법이 있을까요? & 대신 or을 집어 넣어 보았는데 오류가 발생하여 질문드립니다!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
why?_2
X = Y.to_dict('__') 언더바에 들어가는 함수가 list, series, dict 등등 여러가지가 있던데 하는 역할이 따로 있나요?? ++ X = pd.DataFrame.to_dict(Y) 를 해도 같은값이 나오던데 다른건가요?