월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님, 질문이 있습니다.
선생님, 강의 잘 보고 있습니다. RSS가 편차의 제곱의 평균, 즉 표준편차와 같은 개념이라고 봐도 괜찮나요? 아니라면 두 개념에 어떤 차이가 있는지 궁금합니다. 감사합니다!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
sortkey_est함수 인자 관련 질문
def sortkey_est(pred): return pred.est 해당 함수에서 pred를 인자로 받는데 그 아래 코드인 predictions.sort(key=sortkey_est, reverse=True) 에서 sortkey_est가 인자를 따로 받지 않는데 이 부분이 헷갈립니다. 인자를 따로 설정해주지 않으면 자동으로 (pred)라는 인자를 받는건가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
predict_rating_topsim 함수 내 코드 질문
def predict_rating_topsim(ratings_arr, item_sim_arr, n=20): # 사용자-아이템 평점 행렬 크기만큼 0으로 채운 예측 행렬 초기화 pred = np.zeros(ratings_arr.shape) # 사용자-아이템 평점 행렬의 열 크기만큼 Loop 수행. for col in range(ratings_arr.shape[1]): # 유사도 행렬에서 유사도가 큰 순으로 n개 데이터 행렬의 index 반환 top_n_items = [np.argsort(item_sim_arr[:, col])[:-n-1:-1]] # 개인화된 예측 평점을 계산 for row in range(ratings_arr.shape[0]): pred[row, col] = item_sim_arr[col, :][top_n_items].dot(ratings_arr[row, :][top_n_items].T) pred[row, col] /= np.sum(np.abs(item_sim_arr[col, :][top_n_items])) return pred 유사도 행렬에서 유사도가 큰 순으로 n개 데이터 행렬의 index를 반환하는 코드에서 볼드처리된 부분이 어떤 것을 의미하는지 헷갈려서 질문드립니다ㅠㅠ 유사도 행렬에서 col에 해당하는 영화의 유사도 값을 큰 순으로 내림차순하는데 중간에 -n-1이 어떤 의미로 첨가된 것인지 알고싶습니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
hstack 함수를 사용하는 곳에 질문 드립니다.(강의 시간 6:34 부터 약 1분간)
해당 코드에서 X_features_sparse=hstack(sparse_matrix_list).tocsr() 라는 줄로 모든 데이터를 수평방향으로 합친다고 하셨습니다. 그리고 del X_features_sparse로 지우셨습니다. X_features_sparse를 만들었다가 지운다면, 데이터를 합친 의미가 없는것 같은데... 단순히 데이터 전체의 shape를 보기 위함이었던 건가요? 그리고 데이터의 shape를 본 이유는 어떤것인가요? 강의 너무 잘 듣고 있습니다. 감사합니다 선생님!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
threshold
강의를 보다보면 lasso 모델(?)을 통해 만들어진 lasso라는 변수를 통해 feature importance를 구하는데요. 이렇게 만들어진 feature importance 가 높은 상위 3개를 뽑는다는 것 까지는 알겠는데 뒤에 0.01을 더하는 이유는 무엇인가요? threshold = np.sort(importance)[-3] + 0.01 상위 3개중에 꼴찌인 bmi를 포함시키지 않기 위해서인가요...(??) 그리고 sfm 에서의 median은 뭐에 대한 메디안인지도 안정해졌는데 어떻게 계산이되는걸까요..(?)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
sklearn model을 java에서 load
안녕하세요. 파이썬 머신러닝 완벽가이드, 캐글 Advanced 머신러닝 실전 박치기 강의와 책(파이썬 머신러닝 완벽가이드)을 통해 머신러닝을 공부하고 있는 직장인 입니다. 수업내용과는 직접적으로 관련은 없지만 궁금한게 있어서 문의드립니다. sklearn으로 만들어진 lightGBM, RandomForest 모델을 save해서 load하는데 pickle , joblib 등을 활용이 되는건 알겠는데 그렇게 저장된 model을 java에서 호출하여 사용하는 방법이 혹시 있는지 알고싶습니다. tensorflow는 model save시 hdf5 형식으로 저장 후 java에서 load해서 사용한다고들 하는데 sklearn으로 만들어진 모델은 혹시 어떤 방법이 있을까요? * 강의와 직접적인 연관이 없는 질문인거 같아 메일을 통해 문의를 드려볼까 하였으나, 메일주소를 알수가 없어서 이렇게 질문게시판에 남깁니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
실루엣 스코어
안녕하세요 교수님 항상 좋은 수업 감사드립니다 :) 다름이 아니라 실루엣 스코어 시각화 코드를 포탈에 검색해서 보는 중에 이렇게 표현하는 코드가 있길래 해봤는데 이러한 방법은 교수님께서 하신거랑 차이가 큰가요? 단순하게 최적화된 n_clusters만 알 수 있고 라벨들의 군집(?)을 모른다는것 인가요,,, 마지막으로 이렇게 이상치가 많은 데이터에서 roboust scaler을 안쓰시는 이유가 있으신가요? 오늘도 제가 이상한 질문을 하는군요 :(
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
실루엣 계수 평균값
안녕하세요 교수님 :) 강의 마지막에 실루엣 점수 0.553은 매우 좋은 점수라고 말씀해주셨는데, 최대값 1에 절반밖에 못미치는 수준(?)이 왜 좋은 점수인가요? 실무에서는 실루엣 점수가 몇 점 정도 나와야 현실에 적용가능하다고 보는지 궁금해서 질문 남깁니다 :) 항상 감사합니다 😊
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV 함수 질문있습니다.
안녕하세요 선생님. 머신러닝에 관심이 있어, 강의를 통해 배우고있습니다. 다름이 아니라 GridSearchCV를 활용할때 param_grid 인자값을 설정하는데, max_depth와 min_samples_split 등의 값은 어떻게 정하는건가요? 타이타닉 예측 강의에서 [2,5,8]등의 값을 설정하는데, 반복 방식은 이해 했지만, 그 값이 무슨값인지는 아직 이해를 못했네요 ㅠㅠ 그리고 외람된 질문이지만, 머신러닝에서 sklearn 모듈외에 statsmodel도 사용되는데, 둘중 어떠한 모듈이 더 많이 활용되는지 알수있나요...? 수고많으십니다!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
PCA에 대한 질문입니다.
1. 이부분에서 n_components의 갯수를 6개로 하셨는데 혹시 위에서 heatmap으로 확인했을때 BILL_AMT1 ~ BILL_AMT6과 같은 6개의 피처들의 상관관계가 가장 높기 때문에 n_components의 갯수를 6개로 하셨는지 궁금합니다. 2. PCA의 목적이 여러가지 상관관계가 높은 피처들이 포함된 데이터세트에서 새로운 면(새로운 피처들)을 찾는다는것이 목적인데 어느부분에서 새로운 면을 찾은것인지 뭔가 직관적으로 이해하고싶은데 제가 이해한바로는 상관관계가 높은 피처들을 추출해서 component1, component2와 같은 교수님께서 지정하신 이름의 새로운 피쳐들을 찾아낸다 라고 이해를 했는데 제가 이해한것이 맞는지 아니라면 좀더 직관적으로 설명해주시면 감사하겠습니다. 3. 변동성이란것이 위의 예제를 예로들면 상관관계가 제일 높은 BILL_AMT1 ~ BILL_AMT6의 피쳐들을 추출해서 스케일링한후 PCA를 이용하여 변동성을 구하였는데 구한 변동성을 어디에다 쓰는것인지 이 변동성들이 의미하는것이 직관적으로 어떤것인지 궁금합니다. 질문이 많아서 글이 길어졌는데 긴글 읽어주셔서 감사합니다. 제가 쓴글이 잘 이해가 되실지 모르겠네요. 답변 부탁드리겠습니다 교수님 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님, 질문이 있습니다.
선생님 안녕하세요 원래 저는 임베디드 개발자인데 요새 선생님 덕분에 재미있게 잘 배우고 있습니다. 다름이 아니오라 x_train y_train X_test y_test 이 인자들의 의미가 각각 잘 들어오지 않습니다.. train_data = iris_data.data train_data로 predict를 하면 당연히 같은 값으로 예측하니 1이 나오는거까지는 당연히 이해가 되는데 진짜 저거는 구글링 돌려서 참고해도 잘 이해가 되지 않습니다 선생님께서는 모의고사 / 수능 이렇게 비유를 하시는데 저같은 초심자를 위해 조금더 자세히 추가 설명 부탁드려도 될까요? 감사합니다:)
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
안녕하세요. Kaggle kernel 관련 질문이 있습니다.
안녕하세요. 머신러닝 완벽 가이드를 수강하면서 Kaggle Competition에 도전하고 있습니다. multiclass classification을 해결하기 위해 LGBMClassifier를 사용 중에 Kaggle Kernel의 GPU를 사용하려 했습니다. 하지만 Draft Session에서의 GPU의 사용량을 보면 10%가 채 안됩니다. CPU에서 GPU로 일거리를 던져주는데 병목 현상이 생겨서 그럴까요 ? 어떻게 해결해야 할까요 ? 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
X_train['review'] 에 대해서 질문드립니다.
해당 사항에 대한 질문이 있었지만 해결되지 않는 부분이 있어서 질문드립니다. X_train 뒤의 ['review']를 지우고 실행시켰을 경우 ValueError: Found input variables with inconsistent numbers of samples: [1, 17500] 라는 에러가 발생하여 어떠한 것이 문제인지 알고싶습니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
roc_auc 질문드립니다
안녕하세요 교수님 :) 늦은 시간 질문드려서 죄송합니다. 첫번째 칸 코드는 교수님이 강의때 해주신 코드입니다. 그리고 두번째 코드는 제가 친 코드입니다. 전 강의에서 roc_auc를 구할때 predict_proba를 항상 쓰셨는데 ( 혹시 제가 잘못 기억하는거면 죄송합니다) 이번에는 쓰지않으셔서 질문드렸습니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
사이킷런으로 수행하는 타이타닉 생존자 예측 강의 질문입니다
9분경에, sns.plot 만드는데, 막대기 위에 조그맣게 검정색 선?이 있는데 이건 무엇인가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
PolynomialFeatures degree에 대해 질문드립니다.
안녕하세요 교수님 강의 잘듣고 있습니다 :) 다름이 아니라 degree가 overfitting를 유발시킬수있다고 마지막에 말씀해주셨는데, 최적의 degree를 구하기 위해서는 for문을 통해 찾을 수 있는건가요? 아니면 GridSearchCV를 통해서 구해야하는 건가요? 항상 감사드립니다:)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
넘파이 행렬로 변환
##아이템 기반 인접 이웃 협업 필터링으로 개인화된 영화 추천 1) def predict_rating(ratings_arr, item_sim_arr ): ratings_pred = ratings_arr.dot(item_sim_arr)/ np.array([np.abs(item_sim_arr).sum(axis=1)]) return ratings_pred 2) ratings_pred = predict_rating(ratings_matrix.values , item_sim_df.values) ratings_pred_matrix = pd.DataFrame(data=ratings_pred, index= ratings_matrix.index, columns = ratings_matrix.columns) print(ratings_pred_matrix.shape) ratings_pred_matrix.head(3) ------------------------------------------ 이 코드에서 ratings_arr과 item_sim_arr이 각각 rating_matrix와 item_sim_df를 넘파이 행렬로 변환시킨 값이라고 책에서 설명하셨는데, 이 부분이 잘 이해가 가지 않습니다. 데이터프레임을 넘파이로 변환시킬때, 주로 .values를 사용하는 것으로 알려져있고, 2) 부분의 코드에서 ratings_matrix.values와 item_sim_df.values를 적용하는 것으로 책에 나와있습니다. ratings_arr과 item_sim_arr처럼 뒤에 _arr이 붙으면 넘파이값으로 변형이 되는것인가요? ratings_arr과 item_sim_arr을 넘파이값으로의 정의를 이전에 해주어야 하는 거 아닌가요? 근데 책의 코드에는 따로 ratings_arr과 item_sim_arr을 정의해 주는 부분없이 그냥 바로 def 함수를 적용하더라구요. 수업을 듣다가 아무리 구글링을 해도 이해가 가지 않아..두서없이 질문드립니다.. 답변 기다리겠습니다. 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
verbose 의미
다른 곳에서는 verbose = 1, 혹은 verbose = True 이런식으로 쓰셨는데 verbose는 정확히 어떤 의미 인가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
안녕하세요! 좋은 강의 항상 감사합니다! 지금 섹션 2 진행중인데, 강의 들으면서 스스로 할만한 숙제나 예시, 데이터셋 같은 거 제공받을 수 없을까요?
좋은 강의를 통해 많이 배우고 있습니다! 다름이 아니라, 공부를 하면서, 제가 직접 한 번 코드도 짜보고 하면 기억에 많이 남더라구요... 그래서, 따라하는 것 이외에 숙제처럼 제가 한 번 직접 짜보고 이렇게 저렇게 해보고 싶은데요... 그런 자료를 주실 수 있나요? 혹은, 따로 구할 수 없을까요? 아니면 제가 찾을 수 있는 곳이 있나요? 감사합니다 ^^
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
개별 관측데이터에 대한 가우시안 커널함수 적용 파트에서 질문
잘 이해가 되지 않는 부분이 있어 질문드립니다. 해당 파트에서 support로 -4에서 4까지의 범위를 200개로 나누는데 범위와 해당 범위를 몇개로 나눌 것인지는 임의로 정하는 것인지, 그리고 왜 해당 범위를 나누어 줘야 하는 것인지 궁금합니다. 또한 norm.pdf에서 pdf가 정규분포의 확률밀도 값을 구하기 위한 메서드가 맞나요?