월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
train.tsv
9:56에 zip파일을 열면 train.tsv zip파일이 있는데 제가 방금 kaggle에서 데이터셋을 전체 다운 받았을 때는 train.tsv가 보이지 않습니다. 제가 다운로드 파일을 열었을 때 보이는 파일은 아래와 같습니다. 혹시 kaggle 데이터에 변경이 있어서 그런 것일까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
회귀 규제에서 alpha값 범위
선생님께서 알려주시는 내용으로 열심히 공부하고 있습니다!! 라쏘와 릿지의 alpha값을 튜닝하는데 책에 있는 예시들이 릿지값들이 더 크게 설정이 되어 있고, 랏쏘는 작은 값들로 세팅이 되거든요. 혹시 이유가 있는건가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
회귀에서 규제(L1, L2)에 따른 회귀계수의 변화가 궁금합니다.
310페이지에서 보면 NOX의 회귀계수가 -19.8로 나옵니다. 즉, 집값과 NOX가 반대의 영향을 크게 미치는 것처럼 보였는데요. 308페이지의 그래프를 보아도 음의 관계를 갖는거 처럼 나왔습니다. 이렇게 중요해보였던 피쳐가 L1이 적용되면서 0으로 (없어도 되는 피쳐) 되어 버린게 이해가 잘 되지 않습니다. 피쳐의 중요도가 규제에 따라 달라지는건가요? 아니면, 310페이지는 학습이 잘 못되었다고 봐야 하는건가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
교육 자료 궁금한 점이 있습니다.
안녕하세요! 좋은 교육 강의 제공해주셔서 감사합니다 혹시 용어 정의나 설명이 나와있는 장표 파일도 따로 있을까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
데이터 전처리 과정 질문입니다.
안녕하세요 강사님. 좋은 강의 진심으로 감사합니다! 데이터 전처리 하는 과정을 보면서 질문이 생겼는데요. 1. 회귀 모델을 위해 전처리 할 때는 standardScaler를 하지만, rule-based model인 결정 트리에서는 안한다고 알고 있습니다. 그럼 결정 트리에서 전처리 할 때는 imputer, one-hot encoding 외에 어떤 전처리가 가능할 까요? 2. 왜곡도가 높은 피처들을 로그 변환 적용을 하는데, 이 또한 standardScaler를 위한 거니까 결정 트리 모델을 위해 전처리 할 때는 생략해도 되는 과정인가요? 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
random forest의 feature selection
선생님, 열심히 공부하고 있는 학생입니다~!! random forest의 특징이 randomly feature selection에 있다고 하는데요, feature selection이 된 후에 의사결정나무를 학습을 하는건가요? 아니면, 의사결정나무에서 규칙노드를 만드는 기준을 세울때 feature selection된 피쳐에 한정해서 split을 하는건가요? 이해가 잘 안되실거 같아서 그림으로 표현하였습니다. 둘중에 어떤 것인지 궁금합니다. 그림) feature selection이 된 후에 의사결정나무를 학습 하는 경우 그림) 의사결정나무에서 규칙노드를 만드는 기준을 세울때 feature selection된 피쳐에 한정 항상 친절히 답변주셔서 감사합니당!!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
GBM, LightGBM, XGboost의 알고리즘이 모두 Decision Tree인가요?
선생님, 열심히 공부하고 있는 학생입니다~!! GBM, LightGBM, XGboost를 보면 데이터를 샘플링하는 기법이라던지, 오차를 처리하는 기법의 차이인거 같은데 내부에서 사용하고 있는 분류 알고리즘은 Decision Tree를 사용하는 건가요? 아니면 다른 알고리즘을 사용하는건지 궁금합니다. 만약 다양한 알고리즘을 사용할 수 있다면, sklearn패키지에서는 어떤 알고리즘을 사용하고 있는지 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
검증데이터
선생님 안녕하세요, evals = [(X_test, y_test)] 이부분의 코드에서, 선생님께서 검증데이터로 원래 테스트 데이터를 쓰면 안되는데 데이터 부족으로 어쩔 수 없이 테스트 데이터를 넣었다고 하셨는데요 1. 그러면 보통 검증데이터로는 뭐가 쓰이나요? 2. 전체 데이터를 80퍼는 학습데이터, 20퍼는 테스트용 데이터로 분할하였는데 그 학습데이터를 쪼개서 검증데이터를 원래 가져오는건가요? 3. 제가 보기엔 학습데이터도 수가 많아보이는데 왜 검증용 데이터가 부족한건가요?ㅠㅠ 4. 만약 학습데이터가 많다면, K-Fold로 검증데이터를 원래 가져와야 맞는건가요? 많이 부족한 질문 죄송합니다. 수업 항상 잘 듣고 있습니다!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
5.4 보스턴 주태 가격 예측
안녕하십니까, 좋은 강의 감사드립니다. sns.regplot(x=feature , y='PRICE',data=bostonDF , ax=axs[row][col])를 수행한 결과 아래와 첨부 그림과 같이 그래프 색이 모두 동일하고, x축 y축의 여백이 없게 나옵니다. 이러한 경우 필요한 작업은 무엇인지 알려주시면 좋겠습니다. 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
Permutation Importance 직관적으로 확인하는 방법
안녕하세요 강사님!최근에 알게되었는데Permutation importance를 eli5 패키지에서직관적으로 볼 수 있는 기능이 있습니다. 먼저 모델을 만든 다음에(아래 그림에는 XGboost)test_x, test_y 칼럼을 넣고, scoring 파라미터를 넣으면Importance 결과를 그림으로 아주 쉽게 보여줍니다!날이 갈수록 신기한 기능이 많이 나오는 것 같습니다.감사합니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
안녕하세요, 성능 측정 방법에 대해 궁금한게 있습니다.
안녕하세요! 멋진 강의 감사합니다. 매일매일 퇴근하고 하나씩 알아가는 재미로 공부하고있습니다. 너무 좀... 어떻게 보면 수준 낮은 질문일 수도 있는데.. 선생님께서 강의에서 roc_auc는 보통 의학 분야에서 많이 사용한다고 하셨는데 그럼 보통, 의학 분야를 제외한 현실세계의 다양한 이진분류문제는 일단 보통 precision-recall-curve와 같은 방법을 사용하는게 맞을까요? 의학같은 특수한 상황에서만 roc_curve를 사용하고요. 감사합니다 ㅎㅎㅎ
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 pca 에서..
PCA에서 변동성이 뜻하는게 클래스 내의 분산을 뜻하는 건가요?? 클래스간 분산을 뜻하는건가요??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
pd.merge() 질문
pd.merge()에서 left_index=True, right_index=True 옵션 2개를 넣는 경우가 있는데 왜 넣는지 이해가 잘 안되서 질문 드립니다. 공식홈페이지 봤는데도 잘 이해가 안됩니다. # OHE train = train.merge(pd.get_dummies(train['R'], prefix='R'), left_index=True, right_index=True).drop(['R'], axis=1) https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html https://www.kaggle.com/artgor/ventilator-pressure-prediction-eda-fe-and-models
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
텍스트 분석의 토픽모델링과 군집화의 차이점
선생님, 강의 잘 듣고 있습니다 :) 텍스트분석에서 나오는 토픽모델링과 군집화는 사용하는 알고리즘 차이 말고는 어떤 차이점이 있는지 궁금합니다. 뭔가 둘다 분석을 하고 나면 주제별로 묶이는거 같이고, 그결과를 해석하는 것은 분석가가 하는거 같아서 비슷하게 느껴지거든요. 구체적인 차이점이 있나요? 사용목적이나 특징 관점으로 차이점을 알고 싶습니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 경사하강법 질문합니다
선생님 강의듣고 유익해서 이번에 책도 같이 구입했습니다..! 다름이 아니라 경사하강법 파트에서 w1,w0를 0으로 초기화 하는 이유를 모르겠습니다. 왜 0으로 초기화 하나요?? def get_weight_updates(w1, w0, X, y, learning_rate=0.01): N = len(y) # 먼저 w1_update, w0_update를 각각 w1, w0의 shape와 동일한 크기를 가진 0 값으로 초기화 w1_update = np.zeros_like(w1) w0_update = np.zeros_like(w0)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
마지막에 AUC 까지 넣은 함수를 어떻게 실행하는지 모르겠습니다.
def get_eval_by_threshold(y_test , pred_proba_c1, thresholds): for custom_threshold in thresholds: binarizer = Binarizer(threshold=custom_threshold).fit(pred_proba_c1) custom_predict = binarizer.transform(pred_proba_c1) print('임곗값:',custom_threshold) get_clf_eval(y_test , custom_predict) print() get_eval_by_threshold(y_test, pred_proba[:,1].reshape(-1,1), thresholds) 밑에 이거 코드를 추가하고 실행하는 것이 아닌가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
pandas로 csv 데이터 읽을 때
안녕하세요 선생님. 산탄데르 캐글 예측 데이터를 불러올때, pd.read_csv()안에 파일위치와 encoding='latin-1'이라고 하셨는데, 혹시 encoding이 의미하는게 무엇인지 알 수 있을까요? 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
최적의 cv값에 대한 질문
현재 약 200개의 Train Dataset을 대상으로 분류를 위한 SVM을 진행하면서 GridSearch를 통해 최적의 파라미터를 찾고 있습니다. 분석을 진행하면서 궁금해진 것이 최적의 CV값을 어떻게 정해야할지에 대한 것입니다. CV값을 높여가면서 best_score와 Test Dataset에 대한 적용 결과도 함께 좋아지긴 하는데 특정 CV를 넘어서는, 예를 들어 CV=7를 넘어서 8, 9, 10 등등에서의 결과가 전체적으로는 비슷하면서도 어떤 CV값에서는 Test에서의 결과가 best_score보다 높다거나, 다른 CV값에서는 best_score가 Test Dataset보다 높아서 CV값을 어떻게 설정하여 학습을 진행해야 할지 잘 모르겠습니다. 더하여 궁금한 것이 Train에서의 성능보다 Test에서의 성능이 높게 나타나는 게 좋은 것인지 궁금하며 특정 CV값을 넘어서는 n_splits=20 cannot be greater than the number of members in each class. 와 같은 오류가 발생하는데 무엇이 이유인지 알고 싶습니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
scaler와 countervectorizer 를 서비스에 적용할 때는 어떻게 해야 하나요?
선생님, 수업 잘 듣고 있습니다. 책을 보면, CounterVectorizer()나 StandardScaler, MinMaxScaler 사용을 하면, 학습/테스트 데이터 적용시 동일한 object를 사용해야 한다고 적혀져 있는데요. 만약, 학습을 다 완료하고 해당 모델로 서비스에 적용하려고 해도 동일한 object를 사용해야 하는 것인가요? 그럼, 대체적으로 어떻게 관리해서 사용하게 되는지 궁금합니다^^ 특히나, 텍스트분석의 경우는 학습시 사용되지 않았던 단어들이 서비스시에 나올 수 도 있을거 같거든요. 신조어같은게 계속 늘어나니까요.... 이런경우도 어떻게 처리하는지 궁금합니다~ 감사합니다^^
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
polynomial feature 관련 질문
안녕하세요. 다항회귀 관련해서 이해되지 않는 것이 있어 질문드립니다. 교재와 강의에서 일차 단항식 계수를 PolynomialFeatures 클래스를 활용하여 삼차 다항식 계수로 변환한뒤, Linear Regression을 통해 선형회귀를 적용하여 다항 회귀를 구현한다고 하셨습니다. 그럼 결국 다항 회귀를 하려면 일차 단항식 계수가 주어져야 하는지 의문이 있습니다. 예제의 경우 X=np.arange(4).reshape(2,2)를 통해 단항식 행렬이라 가정했는데, 일반적으로 데이터가 주어졌을 때 다항회귀를 할 경우 이러한 단항식 행렬이 주어져지 않습니다. 그러면 어떻게 다항회귀를 할 수 있는건지 이해가 되지 않습니다. 정리해보자면, 다항회귀의 첫 단계에서 나오는 단항식 계수가 어떤 의미를 가지고 있고, 어떻게 구해야 하는건지 알고 싶습니다. 감사합니다.