월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
람다 함수가 안돌아가요
결과물이 안보이네요 해결 방법이 있나요? 왜 *모양만 뜨는지 모르겠어요
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
파일 경로 에러
안녕하세요! 저는 깃허브에서 파일을 다운받을 때 텍스트를 복사해서 txt 파일(메모장)로 저장을 했는데, 파일 경로를 찾을 수 없다는 다음과 같은 에러가 뜹니다. FileNotFoundError: [Errno 2] No such file or directory: 'ratings_train.txt' 혹시 메모장에 텍스트를 저장하면 read_csv() 메소드로 불러올 수 없나요? 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
(회귀 실습 1: 자전거 대여(공유) 수요 예측 ) - 회귀 계수 그래프가 다르게 나옵니다.
해당 강의 18:22 에 그리는 회귀 계수에 대한 그래프가 아래와 같이 나옵니다. 바로 위 RMSLE, RMSE, MAE는 강사님과 같은 결과가 나오는데 이상하게 회귀 계수에 대한 그래프만 다르게 나오네요... 혹시 LinearRegression() 의 매개변수의 default 값이 버전이 지나면서 바뀐 걸 까요? (강사님이 제공해주신 실습파일의 코드를 변경하지 않았습니다.) 제 SKlearn의 버전은 '0.24.2' 입니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
수업자료 받을 수 있나요?
수업 즐겁게 듣고 있습니다^^ 혹시, 수업 자료 받을 수 있나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
HyperoptEstimator 관련 질문
안녕하세요. HyperoptEstimator 관련해서 질문이 있습니다. 베이지안 최적화에 기반한 HyperoptEstimator으로 알고 있습니다. 우선, 제가 HyperoptEstimator에 대해서 관심을 가지게 된 것은 기존엔 그리드 탐색을 통해서 공부했지만, HyperoptEstimator이 좀 더 효율적이라는 얘기를 듣게 되면서 좀 알아보고 싶다는 마음이 생기게되었습니다. 우선, 첫번째 질문입니다. 아래와 같은 코드로 만약 모델을 학습하고, 수행한다면 사이킷런에 있는 모든 분류, 회귀 모델들을 통해서 일일이 다 모델 성능을 평가하며, 가장 최적화 모델 및 하이퍼 파라미터를 찾는다고 보면 될까요? from hpsklearn import HyperoptEstimator # Load Data from sklearn.datasets import load_iris, load_linnerud, load_diabetes from sklearn.model_selection import train_test_split iris = load_iris() X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target) # Crate the estimator object estim = HyperoptEstimator() estim.fit(X_train, y_train) prediction = estim.predict(X_test) score = estim.score(y_test, prediction) model = estim.best_model 두번째 질문입니다. 만약, 제가 첫번째 질문을 통해서 드린 질문이 맞다면? 결국 HyperoptEstimator도 어느 특정 범위에 하이퍼 파라미터 범위 및 모델을 명시적으로 지정해줄 경우, 그 틀안에서 최적의 하이퍼 파라미터를 찾는다는 점에서 그리드 탐색과 별다른 차이점이 없는 건 아닌지, 그리드 탐색에 비해서 좀 더 좋은 장점은 어떤 것인지? 너무 궁금해서 늦은 시간 글을 남기게 되었습니다. 관련해서 아직 인터넷에 자료도 부족하고 해서, 이렇게 글을 남겼는데 꼭 답변부탁드리겠습니다..ㅎ 감사합니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
릿지 회귀 질문있습니다
선생님이 촬영하신 강의에서는 5.6 릿지회귀의 5 folds의 개별 Negative MSE scores, 개별 RMSE scores, 평균 RMSE값이 다음과 같은데, 강의자료를 주피터에서 열어서 실행시켜본 결과 이 나왔고 이 부분 뿐만 아니라 아래의 값들도 달랐습니다. 이것은 오왜 그런 건가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
군집분석(K-Means) 질문
안녕하세요. 머신러닝/비지도 학습 공부 중 질문이 생겨서 이렇게 글을 남기게 되었습니다. K-Menas의 경우 우선, 중심값을 기준으로 거리를 측정해, 군집을 형성하는데, 1. 혹시 초기 군집값은 랜덤하게 생성을 해주는 것일가요? 2. 거리를 계산할 때도, 유클리드 거리 통해서 계산하는것으로 아는데, 항상 유클리드 거리로 계산을 하는지, 혹, 옵션을 통해서 맨해튼거리로도 계산이 가능한지 궁금합니다. 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
CV 세트 기반 스태킹
안녕하세요. CV 세트 기반의 스태킹에서 질문이 있습니다. 책 284p를 보면 '첫 번째, 두 번쨰, 세 번째 반복을 수행하면서학습 폴드 데이터로 학습된개별 모델이 원본 테스트 세트로 예측한 결괏값을 최종 평균하여 메타 모델에서 사용될 테스트를 만든다'라고 나와있습니다! 여기서 최종 평균을 한다는 것은 hard voting처럼 다수결로 최종 예측 값을 결정하게 되는 것인가요?! 아니면 soft voting처럼 평균 값을 내서 최종 예측 값을 결정하게 되는 것인지 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 standard scaler 질문있습니다.
타이타닉 데이터를 standard scaler 를 적용하는 과정에서 titanic 데이터 전체를 standard scaler 시킨다음 train_test_split시킨후 모델학습을 시킬려고 하니까 오류가 나네요 일반적으로 standard scaler는 target 값에는 적용시키면 안되나요??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 선생님들 강의들의 추천하시는 로드맵이 있나요?
현재 머신러닝 강의를 듣고 그다음강의 그다음 강의 순서 추천을 받고싶습니다!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
perfect guide 압축파일 관련
안녕하세요 github에 perfectguide 압축파일이 없어서 확인 부탁드립니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 kfold 질문있습니다.
강의 너무 잘듣고 있습니다 항상 감사드립니다. kfold 로 데이터나눌때 데이터프레임으로 변환하고 데이터를 넣으니까 이런오류가 뜨는데 어떻게 해야하나요?? kfold뒤 매개변수에 데이터프레임은 안되고 numpy 형태만 가능한가요?? 자세한 설명 부탁드립니다 ㅠㅠ
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님, 질문이 있습니다.
선생님, 강의 잘 듣고 있습니다.. 대학원 가기 전에 다시 복습할 겸 듣고 있는데 매번 코딩을 새로 배우거나 하면 드는 생각이 '늘 메서드를 굳이 전부 외울 필요는 없지만 익숙해질 필요는 있다' 인데요.. 사실 저는 코딩테스트도 c++로만 봤어서 Pythonic한 문법은 익숙하지 않은데(특히 Python이 type dynamic해서 형에 대해 제약이 없다는 점이 오히려 낯설게 다가온다거나 List comprehension 등) 그래서인지 이런 메서드 정렬 / 삽입 등등 메서드의 이름을 기억하고 API로 내면화하고 자유롭게 쓰는게 오히려 어렵더라구요 가령 titanic_df[['Name','Age','Pclass']].sort_values(by=['Pclass','Age']) 이런 것에서도 sort_values(by=['Pclass','Age']) shift tap tap을 눌러보면 by에는 list형만 올 수 있다고 적혀있고 또 그렇게 써야만 하는걸로 이해하면 되는데 저걸 이해하기 전까지는 by = [['Pclass','Age]] 도 되는거 아님? 2차원 df에 대한 정렬이니 그에 대한 기준도 2차원 df로 맞춰줘야 하는거 아닌가?라는 식으로 의문을 갖다보면 헷갈리게 됩니다. 만약 이걸 실전에서 현업에 쓴다고 했을 때 확실히 sort_values라는 명칭과 매개변수까지 전부 숙지한 사람과 그렇지 못하고 구글링으로 pandas dataframe sort module 검색한 다음 용법을 확인하고 써먹는 사람과는 일의 능률에 차이가 분명히 있고 무시할 수도 없는 차이라 걱정이 되네요. 이런 저같은 경우에는 그냥 계속 이쪽 계열의 코딩을 많이 해보면서 익숙해지는 방법밖에 없을까요? 아니면 다른 좋은 고견이 있을까요? 감사합니다.
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
선생님, 질문이 있습니다.
선생님, 안녕하세요?? 문득 Python에서의 call by value 방식에 대해 궁금증이 생겼습니다. 임의의 1차원(차원은 크게 상관없습니다만) 배열(혹은 행렬) x가 있을 때 np.sort(x) : x라는 1차원 배열의 복사본을 sort함수의 인자로 전달하여 np 라이브러리의 sort 함수의 결과(정렬배열)을 리턴 x.sort() : x라는 1차원 배열의 원본에 대해 정렬을 수행 -> 따라서 원본을 가지고 연산하였기 떄문에 원본이 정렬된 결과로 바뀜 이라고 말할 수 있을까요? 그리고 만일 엄청난 크기의 배열을 정렬해야 한다고 가정할 때 call by value는 효율적이지 못하기 때문에 C에서의 포인터처럼 call by reference를 쓴다고 저는 배웠는데 파이썬에서는 저런 복사 비용을 감내하여도 그냥 진행을 하게 되는지 여쭙고 싶습니다. 감사합니다~~!!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님, 질문이 있습니다.
2차원 ndarray를 1차원으로 바꾸는 과정에서 그냥 궁금증이 생겨서 구글에 Numpy 2 dimension array to 1 dimension 검색해본 결과 array_1d = array_2d.flatten()이렇게 flatten()함수가 있더라구요이게 정확하게 reshape(-1,)와 동일한 기능을 한다고 봐도 무방하나요? 그리고 같은 과정에서 왜 reshape(-1,0)을 하면 오류가날까요?감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
결정계수 함수 관련 질문 드립니다.
안녕하세요! 강사님! 교재로 공부하다가 인강도 있다고 들어서 요번에 수강하게 된 학생입니다! 다름이 아니라 공부하면서 랜덤포레스트 회귀 모델을 한번 설계해보고 있는데요. 모델을 학습하고 예측한 후에 평가하는 과정에서 R2(결정계수)가 너무 큰 음수가 나와서 이게 무엇을 의미하는지 또 어떠한 점들이 잘못됐는지 궁금하여 이렇게 질문을 남깁니다. RMSE와 R2 결과 사진: 궁금한 점으로는 1. 회귀 모델에서 R2가 매우 큰 음수로 나온다는 것은 무슨 의미인가요? 2. 사이킷런에서 랜덤포레스트회귀 관련 함수중에 score함수도 R2를 계산해주는 함수인거 같던데 metrics의 r2_score 함수와 같은 기능을 하는건가요? 같다는 전제하에 두 함수를 사용해봤는데 위 사진처럼 값이 너무 다르게 나와서 무엇이 잘 못 됐는지 궁금합니다.. ㅠㅠ 3. 마지막으로 랜덤포레스트 회귀 score 함수를 잘 못 사용한거라면 혹시 입력한 매개 변수를 잘못 입력한건지 궁금합니다.. 다음 사진과 같이 X_test, y_test로 설정한것이 맞게 한건가요..? 항상 좋은 강의 들려주셔서 감사합니다..! 답변 부탁 드립니다 ㅠㅠ!!
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
Truncated SVD, PCA, NMF 관련 질문 드림
강사님 안녕하세요? 이번단원에서 유독 질문을 많이 드리게 되네요 ^^;; 질문1) Feature engineering 방법론 측면 TSVD-PCA 활용 관련 경우의 수 Truncated SVD 의 경우 데이터 표준화를 한 경우는 표준화한 PCA 와 동일해 진다는 부분은 잘 이해하였습니다. 다만 이것저것 돌려 보니, 표준화를 하지 않은 Truncated SVD 는 표준화 한 경우에 비해 데이터 경향도 좀 바뀌는 듯 한데요, 그럼 다양한 feature engineering 방법론 관점에서 아래 3가지 다른 approach 가 가능하다고 정리하면 될지요? 1) 표준화를 하지 않은 Truncated SVD 2) 표준화를 한 Truncated SVD = 표준화를 한 PCA (동일결과) 3) 표준화를 하지 않은 PCA 3)번의 경우도 사실 2)번과 경향은 동일하고 scaling 만 바뀌는 case 이긴 하지만, 원본 변수의 scaling 에 따른 가중치 효과가 있을 것이므로 예측 모델의 성능에도 영향이 있을 듯 하고.... 1) 번은 아래 그래프처럼 경향자체가 많이 달라져서 역시 모델 성능 차이를 줄 수 있을 듯 해서 입니다 (경우에 따라 모델 성능개선을 기대해 볼 수 도 있는) 질문 2) NMF 의 개념 및 componet 개수 가이드라인 NMF 역시 결국은 다변량 변수로 정의되는 초공간에서의 좌표 축을 회전시켜서 새로운 측면의 변수를 뽑아내는 개념이 아닐까... 라고 이해를 해 보았는데요, 인자분석 (Factor Analysis) 과 유사한 개념이라고 이해하면 될지.. 질문 드립니다. Factor Analys 에서도 차원을 줄이되 합성 feature 를 추출해서 포괄적인 상위개념의 변수를 정의해서 모델링을 하거나, 데이터를 해석하는 개념으로 이해하고 있어서... NMF 도 이와 유사한 개념이 아닐까 (물론 계산 과정이나 결과물 자체는 다르겠지만) 생각이 들어서요~ 다만 본 단원 실습인 붓꽃의 4개 feature 자료에 대해서 component 개수를 제약두지 않고 NMF 를 돌렸을 때는 4개의 신규 feature 가 나오던데요, 아마도 원본 데이터의 차원 수만큼 new feature 가 나오는 것으로 이해가 됩니다. PCA 나 인자분석 (FA) 에서는 주성분분산 크기를 가지고 extract 된 feature 의 개수를 가늠하는데, NMF 의 경우 feature 개수를 가늠하는 가이드라인이 있을지.. (예제에서는 두 개로 하셨는데, 그 이유에 대한 설명이 있지는 않아서요~) FA 는 PCA 와 달리 new feature 간 중요도 차이 없이 모두 평등한데, NMF 도 extract 된 new feature 별 중요도가 있을지 혹은 FA 와 같이 모든 변수의 중요도가 동일한지... 도 궁금합니다.
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
PCA 의 적용 방안 - 전체 feature vs. 일부 feature
강사님, 안녕하세요? 좋은 강의 항상 감사드립니다. PCA 적용 실습 사례를 보다가 궁금한 점이 있어 질문을 드립니다. 본 단원 신용카드 실습 예제에서 전체 feature 에 대해서 PCA 를 진행하여 차원축소를 시도했을 때 변수를 줄여 효율성을 높이되 모델 성능에서는 약간의 손실이 발생하였는데요, 전체 feature 에 대한 PCA 적용이 아닌, 물리적인 의미에 유사성이 있으면서도 서로 상관도가 높은 feature 들끼리만그룹을 만들어서 feature 그룹 별 PCA 를 진행하는 경우, 변환된 PC score 중 변동성이 높은 상위 feature 일부만 선택하더라도 모델의 예측성능이 향상될 가능성이 있지는 않을지 문의드립니다. 예를 들어 PAY0~PAY6 끼리 묶어서 첫번째 PCA 를 돌리고, BILL_AMT1~BILL_AMT6끼리만 묶어서 두번째 PCA 를 돌려서 전체 데이터셋의 feature 간 다중공선성을 없애는 방식으로 PCA 를 활용하는 방법을 문의드리는 것이구요, 본 예제에서 사용된 신용카드 데이터셋을 가지고 이렇게 변환해서 feature 재정의를 한 경우와 하지 않은 경우에 대한 모델 예측성능을 비교해 보면 train / test set 분류 상황에 따라서 유사하거나 약간 좋아지는 경향도 보이는 것도 같은데... 예제를 가지고 해 본 것이다보니 .. 현업 데이터분석에 활용시 이렇게 접근하는 것이 실제로 의미가 있는 접근 방법일 수 있는 것인지, 혹은 방법론 상 문제는 없을지요..? (전체 feature가 아닌 부분적인 feature 집합에 한정한 PCA 적용 방안) 감사합니다. from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA credit_ds = pd.read_csv('pca_credit_card.csv', header=1) # 1은 연체, 0은 연체 아님 SS_pay = StandardScaler() SS_bill = StandardScaler() pca_pay = PCA() pca_bill = PCA() SS_pay.fit(credit_ds.iloc[:,5:11]) pay = SS_pay.transform(credit_ds.iloc[:,5:11]) pca_pay.fit(pay) pay_transformed = pd.DataFrame(pca_pay.transform(pay), columns=['pay_PC1','pay_PC2','pay_PC3','pay_PC4','pay_PC5','pay_PC6']) credit_ds.iloc[:,5:11] = pay_transformed SS_bill.fit(credit_ds.iloc[:,11:17]) bill = SS_bill.transform(credit_ds.iloc[:,11:17]) pca_bill.fit(bill) bill_transformed = pd.DataFrame(pca_bill.transform(bill), columns=['bill_PC1','bill_PC2','bill_PC3','bill_PC4','bill_PC5','bill_PC6']) credit_ds.iloc[:,11:17] = bill_transformed credit_ds['class'] = credit_ds['default payment next month'] credit_ds = credit_ds.drop(['ID', 'default payment next month'], axis=1) plt.figure(figsize=(15,15)) sns.heatmap(credit_ds.corr(), annot = True)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
추천시스템을 사용자 피드백을 받아서 성능을 향상 방법에 대해.
넷플릭스, 왓챠, 유튜브, 페이스북 등 많은 기업들이 추천 알고리즘을 사용합니다. 그러면 사용자가 콘텐츠에 대해 평점을 매기고, 영상을 볼 때 마다 로그를 기록하면, 처음부터 재학습을 시켜서 추천을 해주는건가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
음..강의내용은 아니지만 머신러닝 관련 질문이 있습니다.
공부를 하다 의문이 들어서 남김니다. 이렇게 학습한 모델을 서비스화하고싶어서 앱 or 웹에 적용시키려면 서버에 올려야할텐데 관련 툴이 있나요? 도커나 쿠버네티스...같은? 궁금합니다!