월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
Scaler 관련 질문
선생님 안녕하세요! 머신러닝 강의 잘 따라가고 있습니다. 스케일링 관련해서 궁금증이 생겨서 문의 드립니다. 일반적으로 train 데이터에 대해서 fit을 해서 그 train 데이터에 대한 정보를 가지고 train/val/test 각각 tranform을 하는 것으로 알고 있습니다. 그런데 여기서 MinMax를 예로 들었을 때 train의 Max보다 큰 값이나 Min보다 작은 값이 test 데이터에 있는 경우도 있을 거란 생각이 들더라구요. 그래서 직접 그런 상황을 가정해서 코드를 돌려봤는데 기존에 설정한 범위인 0~1이나 -1~1을 벗어난 값으로 반환이 됐습니다. 생각해보면 당연한 결과이긴 한데, 이렇게 반환이 되어도 모델로 예측을 할 때 문제가 발생하지 않는지가 궁금합니다. 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
강의ppt와 파이썬파일누락 ???
선생님 안녕하세요 강의 너무 잘 듣고 잇습니다. 혹시 ppt파일은 어디서 받을수 잇는지요? 그리고 gibhub에서 받은 파일중에서 분류강의 < XGBoost를 이용한 위스콘신 유방암 예측(사이킷런 Wrapper XGBoost 사용)>의 파이썬강의 파일이 없던데 혹시 어디서 받을수 잇는지요? 부탁드리겟습니다 ㅎ
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
선형모델
책에서는 대부분의 "선형 모델"은 중요 피처들의 값이 정규 분포 형태를 유지하는 것을 선호한다 라고 나와있는데 여기서 말하는 선형 모델이라는게 정확히 어떤것들을 말하는건지 쉽게 설명해주실 수 있으실까요? 그리고 선형모델이 아니더라도 왜곡된 분포도를 가지는 피처들은 정규 분포 형태로 바꿔주는것이 대부분 더 나을까요?
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
min_child_samples
LGBMClassifier의 min_child_samples가 다른 전에 해봤던 다른 트리들과 비교했을 때 유독 더 큰값을 주시는거같은데 이유가 뭔가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
1. Kaggle House Prices 예제에서 R2 와 Coefficent 값 질문
1. Kaggle House Prices 예제에서 LinearRegression/ Ridge/ Lasso 에 대해 R2 를 모두 구해보니 동일한 값이 나오는데 맞는 걸까요? 2. Corr 로 구해진 상관계수의 경우 값이 클수록 두 변수간의 상관관계가 크다고 해석하면 되는 것으로 아는데요, Kaggle House Prices 예제를 가지고, coefficient 의 값을 구했을때, coefficent 값의 크기가 의미하는 것은 무엇인지 정확히 이해가 가지 않는데, 설명 주실 수 있을까요?
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
질문
1. 책 226 페이지에 xgboost는 자체 내장된 교차검증이 있다고 나와있는데, 목적함수에 왜 따로 교차검증을 하시는건가요? 2. 출력되는 best loss에 경우 정확도말고 다른 성능지표를 같이 확인하고 싶을때가 있을 수 있을거같은데 그럴경우에는 정확도 뿐만 아니라 다른 성능 지표까지 한번에 같이best loss에 출력되게 하는 방법은 없을까요? 3. n_estimators의 경우 최적 하이퍼 파라미터를 잘 안찾아보는 편인가요? 4. max_evals의 경우 많이 반복할수록 시간은 오래 걸리지만 더 높은 성능을 기대할 수 있나요? 5. 최적 하이퍼파라미터 찾으실 때 미리 어느정도 값을 잡고 가시는데 그런건 경험으로 어느정도일지 예상하고 하시는거죠?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
넘파이 팬시 인덱싱 질문입니다
array_2d 가 [[1,2,3],[4,5,6],[7,8,9]] 라는 가정 하에서 넘파이 팬시 인덱싱을 통해 array_2d의 꼭지점 값인 1 3 7 9를 도출해 보고 싶었습니다. 따라서 로우의 위치 인덱스의 집합인 [0, 2] 와 칼럼의 위치 인덱스 집합인 [0, 2]를 사용해서 array_2d[[0,2], [0,2]] 형태로 팬시 인덱싱을 시도해 보았으나 [1, 9] 가 출력 되었습니다. 로우 0 과 2, 칼럼 0 과 2의 중복은 1 3 7 9 가 아닌가요? 왜 어째서 [1, 9] 가 출력되는 거죠?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
학습 데이터와 검증 데이터의 학습 차이
8:21초의 학습 데이터는 가중치를 줄이는 방향으로 계속 업데이트 하기 땜에 logloss가 계속 줄어드는데 검증은 그렇지 않다 라고 말씀하셨는데 검증 데이터는 가중치를 줄이는 방향으로 업데이트를 안하나요? 학습 데이터가 검증데이터에 대해 어떤식으로 받아들이는지 과정을 모르겠습니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
early_stopping_rounds
early_stopping_rounds가 50이고 검증데이터가 46개, n_estimators가 400이라면 검증 데이터 46개를 사용해 약한 학습기로 가중치를 부여하며 오류 개선 -> 400회 반복 -> 가중치가 50회 이상 떨어지지 않으면 조기 중단 제가 이해한 내용이 맞을까요? 여기서 검증 데이터와 학습 데이터 간에 연결 고리를 모르겠습니다
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
파이썬래퍼 xgboost
파이썬래퍼 XGBoost가 기존에 하던 예제들과 좀 차이가 나서 이해하는데 어려움이 좀 있는데 현업에서 좀 많이 쓰이는 편인가요? 아니면 사이킷런 래퍼 XGBoost만 이해할정도가 되도 지장이 없을까요 ?
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
max_features
하이퍼 파라미터인 max_features는 매우 많은 피처가 있는 경우 과적합을 조정하는 데 사용된다고 나와있는데, 데이터를 많이 학습시킬수록 그 머신러닝은 더 많은 경우의 수를 학습할 수 있기 때문에 성능이 더 좋아 지지 않나요? 일부러 학습시킬수있는 데이터를 줄이는게 현명한지의 여부와 앞의 질문과 과적합이 무슨 관계인지 잘 모르겠습니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
장르별 유사한 영화 추천에 대해 질문드립니다.
책 608쪽에 영화 '대부'와 장르별로 유사한 영화 top10개를 추천하였는데 첫 번째에 자기 자신 영화가 나오지 않고, 대부2가 나오는지에 대해 여쭤보고 싶습니다. 자기 자신과의 코사인 유사도는 1이므로 첫 번째로 나와야 한다고 생각하였는데 첫 번째로 나타나지 않아 어떤 부분에 있어 잘못 이해한 것인지 이에 대해 질문드립니다.
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
하이퍼 파라미터
n_estimators와 같은 하이퍼 파라미터를 고려할 땐 무조건 예측 성능이 높게 나오는 하이퍼 파라미터를 선택하는것이 옳나요?
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
부트스트래핑 분할
부트스트래핑 분할 방식으로 서브세트 데이터들을 분할할 때 정말 우연으로 모든 데이터가 같은 값으로 분할될 수도 있나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
안녕하세요 선생님
강의 중에 보여주시는 ppt 자료는 받을 수 있는걸까요? 아니면 책을 보며 ppt를 보면 되는걸까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
Polynomial 및 규제 관련 질문
선생님 안녕하세요. polynomial 를 통해 얻어진 다항 회귀 계수를 L1/L2 규제 등으로도 적용이 가능한가요? 혹은 실무에서는 잘 이용하지 않는 방법인가요? 실무 프로젝트 경험이 별로 없어서 양해 부탁드립니다 ㅠㅜ
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
gridsearchcv
gridsearchcv를 이용하여 최적의 하이퍼 파라미터를 찾을 때 DecisionTreeClassifier( random_state=11 )이런식으로 난수 발생값을 고정해 놓지 않으면 최적의 하이퍼 파라미터가 계속 달러지던데, 최적의 하이퍼 파라미터를 찾을 땐 난수 발생값을 고정시키고 찾아야 하는건가요? 그렇다면 난수 발생값 설정은 뭘 보고 어떤 기준으로 설정해줘야 하는건가요
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
4.7 lightgbm.ipynb early stopping직후 model 저장
안녕하세요 선생님, lgbm_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric="logloss", eval_set=evals, verbose=True) preds = lgbm_wrapper.predict(X_test) 4.7 lightgbm.ipynb 에 위 코드가 있습니다. eraly stopping 된 best 모델을 저장하는 방법을 여쭙니다. 46.의 xgboost도 마찬가지로 xgb_model = xgb.train(params = params , dtrain=dtr , num_boost_round=num_rounds , \ early_stopping_rounds=50, evals=eval_list ) early stopping된 best 모델 저장하는 방법을 여쭙니다. 감사합니다.
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
루트노드의 sample
8:15 붓꽃 데이터의 레이블 값이 총 150개인데 루트 노드의 samples수가 120개인 이유가 뭔가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
시각화 순서
시각화 수업을 들으려고 하는데 섹션1(넘파이, 판다스) 듣고 시각화 듣고 나머지 들으면 순서가 맞을까요?