파이썬 머신러닝 완벽 가이드

파이썬 머신러닝 완벽 가이드

(43개의 수강평)

1077명의 수강생
Python머신러닝인공지능통계
월33,000원
99,000원
3개월 할부시
지식공유자 · 권 철민
119회 수업· 총 25시간 47분수업
평생 무제한 시청
수료증 발급 강의
수강 난이도 초급, 중급이상
박종필 프로필

안녕하세요 kFold에 마우스를 두시니까 설명이나오던데 박종필 8시간 전
어떻게 하신건가요?

0
최효선 프로필

데이터 전처리 중 고객의 재이용 기간을 계산해야 하는데요. 최효선 18시간 전
강의 내용을 실무에 적용하려고 하고 있습니다.^^ 고객들의 첫구매부터 2번,3번 등 재이용했을 때 첫구매에서 2번째 구매까지 날짜간격, 첫구매부터 3번째 구매까지 날짜 간격을 구해서 고객의 이용횟차별 이용기간을 구하는 데이터를 구하려고 하는데요. 컬럼간 계산하는 방법은 많이 찾을 수 있었는데 행간 계산 방법은 찾기 어려워서 문의 드립니다. ㅜㅜ 데이터는 아래와 같이 들어 있습니다. A고객이 첫번째 구매 : 2020-06-01, 두번째 구매 : 2020-06-15, 세번째 구매:2020-07-01

0
Ji-Hye Park 프로필

분류 및 회귀 Ji-Hye Park 1일 전
현재 전력 사용량 예측을 하기 위해서 머신러닝 기법을 사용하려고 하는데 분류 파트를 듣지 않고 회귀 파트를 바로 들어도 상관 없을까요?

1
gkgktmd 프로필

정밀도/ 재현율 관련 질문입니다. gkgktmd 1일 전
현재 교육해주신 내용 기반으로 실데이터를 돌려보고있는데 위와 같은 결과가 나왔습니다. 그런데 이 모델은 N이 중요한 모델인데 컨퓨전 매트릭스를 보면 23,278개의 N중에서 FP를 17,421개 예측했다는 말인데 N이 중요한 사안에서는 이 학습모델이 안좋다는 의미가 아닌가요? 헌데 실제N인데 P로 예측하는 오류에서 중요하다고 말씀하신 정밀도는 0.8에 가까울정도로 괜찮게 나왔는데 이런식으로 모델링을 할때는 컨퓨전 매트릭스와 정밀도/재현율을 동시에 봐야 할까요? 일단 이 모델은 제가 생각한거에는 좋지 않은 모델인거 같은데  컨퓨전 매트릭스와 정밀도가 상반된 결과를 보이는거 같아서 혼동스러워서 질문을 드려봅니다!

1
gkgktmd 프로필

머신러닝 전처리 질문이 있습니다. gkgktmd 4일 전
안녕하세요 머신러닝 전처리시 type관련해서  예를들어 마케팅 동의여부가 동의하면1, 아니면0 이라고 할때도 해당 칼럼값들의 데이터도 숫자형이되야 하나요? 0이나 1이 숫자를 나타나는게 아니고 특정 정의를 하는 지표라고 해도 머신러닝을 돌릴때는 전부 숫자형으로 바꿔줘야 하나요?

2
김상윤 프로필

sklearn 회귀와 keras, tensorflow 김상윤 5일 전
퍼펙트 가이드를 마치고 keras, tensorflow를 공부하고 있습니다. 시계열 학습에 좋다고여서.. 공부를 하다가 느낀건데 사이킷런 회귀와 케라스의 신경망의 차이가 있을까요? Dense를 구성하여 결국 fit predict를 하는데 사이킷런에서 회귀계수를 찾는거와 신경망을 통해서 회귀계수를 찾는게 비슷해보여서 알고리즘은 다르겠지면 서비스를 운영하는 입장에서 어디에선 사이킷런을 쓰고 어디에서 케라스와 텐서플로우를 써야할지 아직 감이 안잡히네요 목적은 시계열 데이터를 케라스와 사이킷런을 쓰려고 하고 (딥러닝) 그외 분석은 사이킷런으로 하려고 하는데 이게 맞나요? 물론 여기다 질문하는게 좀 이상하긴 할텐데 아시면 답변 부탁드립니다. (질문할곳이 여기밖에 없네요 ㅠ)

1
Jongmoon Im 프로필

지니계수 설명에 대한 질문입니다. Jongmoon Im 7일 전
책 187페이지에서는 "지니 계수가 낮을 수록 데이터 균일도가 높은 것으로 해석해 지니 계수가 낮은 속성을 기준으로 분할합니다."라고 되어 있습니다. 그러나 강의에서는 "...지니 계수가 높은 속성을 기준으로 분할나는 것입니다."라고 되어 있는데 어느 쪽이 맞는 것인지요? 또는 제가 잘못 이해한 부분이 어느 부분인지 질문드립니다.

1
오경서 프로필

하드보팅 예측기가 짝수일 때 오경서 7일 전
하드보팅 예측기가 짝수일 경우 과반수가 나오지 않을 수도 있을 텐데 그런 경우에는 어떤 식으로 예측값을 정하게 되나요? 예를 들어 randomforest와 gradientboosting 2가지를 가지고 하드보팅을 했는데 randomforest는 0이라고 예측하고 gradientboosting은 1이라고 예측 한 경우에는 최종 예측값은 어떻게 되나요?

1
임창수 프로필

ValueError: Number of labels=712 does not match number of samples=713 임창수 9일 전
안녕하세요. 타이타닉 부분 공부하고 있는데요. 교차검증 관련해서 이런 에러가 나네요. 코드는 그대로 작성한거 같은데요. from sklearn.model_selection import KFold def exec_kfold(clf, folds=5):     kfold = KFold(n_splits=folds)     scores = []          for iter_count, (train_index, test_index) in enumerate(kfold.split(X_titanic_df)):         X_train, X_test = X_titanic_df.values[train_index], X_titanic_df.values[test_index]         Y_train, y_test = y_titanic_df.values[train_index], y_titanic_df.values[test_index]                  clf.fit(X_train, y_train)         predictions = clf.predict(X_test)         accuracy = accuracy_score(y_test, predictions)         scores.append(accuracy)         print("교차 검증 {0} 정확도: {1:.4f}".format(iter_count, accuracy))              mean_score = np.mean(scores)     print("평균 정확도: {0:.4f}".format(mean_score)) exec_kfold(dt_clf, folds=5) --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-26-299d8b191409> in <module> 17 mean_score = np.mean(scores) 18 print("평균 정확도: {0:.4f}".format(mean_score)) ---> 19 exec_kfold(dt_clf, folds=5) <ipython-input-26-299d8b191409> in exec_kfold(clf, folds) 9 Y_train, y_test = y_titanic_df.values[train_index], y_titanic_df.values[test_index] 10 ---> 11 clf.fit(X_train, y_train) 12 predictions = clf.predict(X_test) 13 accuracy = accuracy_score(y_test, predictions) ~/opt/anaconda3/lib/python3.7/site-packages/sklearn/tree/_classes.py in fit(self, X, y, sample_weight, check_input, X_idx_sorted) 875 sample_weight=sample_weight, 876 check_input=check_input, --> 877 X_idx_sorted=X_idx_sorted) 878 return self 879 ~/opt/anaconda3/lib/python3.7/site-packages/sklearn/tree/_classes.py in fit(self, X, y, sample_weight, check_input, X_idx_sorted) 263 if len(y) != n_samples: 264 raise ValueError("Number of labels=%d does not match " --> 265 "number of samples=%d" % (len(y), n_samples)) 266 if not 0 <= self.min_weight_fraction_leaf <= 0.5: 267 raise ValueError("min_weight_fraction_leaf must in [0, 0.5]") ValueError: Number of labels=712 does not match number of samples=713

1
김상윤 프로필

시계열 데이터의 군집화 김상윤 9일 전
만약 사용자 데이터를 가지고 사용자 군집화를 한다고하면 어떻게 하면 좋을까요? 사용자별 구매 내역이나 로그인 회수 등등이 기간별로 집계가 되는데 피처를 어떻게 구성할지 의견주시면 감사하겠습니다. 서비스에 시계열 데이터가 대부분인데 시계열데이터 분석을 하려니 개념이 많이 힘드네요 ㅠㅠ

1
HaEun Kim 프로필

괄호 있음과 없음의 차이에 대하여.. HaEun Kim 11일 전
안녕하세요 선생님, 강의 잘 듣고 있습니다.  판다스에서 타이타닉예제 부분을 듣고있는데, api가 어떤때는 ()가 있고 어떤때는 없는 것 같습니다.  1. 예를들어 head는 df.head() 이렇게 불러오고  shape는 df.shape 이렇게 불러오는데, 어떤때 괄호가 붙고 어떤때 안붙는건가요?  2. 주피터 노트북에서 괄호 없이 df.head 로해도 에러가 나지 않던데, df.head()와 무엇이 다른건가요..?  이 차이가 무척이나 궁금한데 검색을 해보아도 잘 모르겠습니다.. 감사합니다. 

1
Sang Lee 프로필

kmeans에서 cluster_centers_의 의미가 궁금합니다. Sang Lee 11일 전
좋은 강의 감사드립니다. 덕분에 거의 마무리까지 수강할 수 있었던 것 같습니다. 질문 드릴 내용은 opinion review 데이터를 kmeans 방법으로 군집화 한뒤 cluster_centers_에 대한 설명이 잘 이해가 안되어서요. cluster_centers는 군집중심의 좌표값을 알려주는 것이지, 중심과의 상대위치를 정규화된 숫자값으로 표시되는 건 아닌걸로 알고 있어서요. 좌표값이 tf-idf로 vectorization한 값이니 이번 경우에 한하여 중심과의 상대위치를 나타내는 값으로 이해하면 될까요?

1
김홍은 프로필

회귀에서 경사하강법 질문 있습니다!! 김홍은 12일 전
경사 하강법에서 get_weight_updates 함수를 정의하는 부분입니다. # w1 과 w0 를 업데이트 할 w1_update, w0_update를 반환. def get_weight_updates(w1, w0, X, y, learning_rate=0.01): N = len(y) # 먼저 w1_update, w0_update를 각각 w1, w0의 shape와 동일한 크기를 가진 0 값으로 초기화 w1_update = np.zeros_like(w1) w0_update = np.zeros_like(w0) # 예측 배열 계산하고 예측과 실제 값의 차이 계산 y_pred = np.dot(X, w1.T) + w0 diff = y-y_pred # w0_update를 dot 행렬 연산으로 구하기 위해 모두 1값을 가진 행렬 생성 w0_factors = np.ones((N,1)) # w1과 w0을 업데이트할 w1_update와 w0_update 계산 w1_update = -(2/N)*learning_rate*(np.dot(X.T, diff)) w0_update = -(2/N)*learning_rate*(np.dot(w0_factors.T, diff)) return w1_update, w0_update 예측값은  분명 w0+X(1)w1+X(2)w2+X(3)w1+ ... +X(100)w1 라 하셨으니 배열이 아닌 하나의 값이 나와야 합니다. 허나 위 코드에서 정의한 y_predict인 np.dot(X,w1.T)+w0은 배열이 나오기 때문에 두 정의가 배치되는것 아닌가요??? 잘 이해가 되지않습니다ㅜㅜ 

1
tomy choi 프로필

시계열 데이터 처리에 대한 질문입니다. tomy choi 15일 전
안녕하세요. XGboost를 이용한 classification 학습모델을 만들고 있는데요,, 시계열 특성이 있는것은 보통 어떻게 처리를 하나요? 예를 들어 최근 5년간의 판매실적(금액) 데이터가 있으면 이것의 추이를 feature로 구성하는 방법에 대해서 도통 감이 오지 않습니다.회귀분석이라면 5년간 판매실적의 추이를 분석해 내년 판매실적을 예측하는 것인데, 제가 원하는 것은 5년간의 추이를 feature 요소 중의 하나로 적용하는 것입니다. XGBoost 강의에서 활용했던 데이터셋 처럼요.  감사합니다~

3
gkgktmd 프로필

cross_val_score에 대한 질문이 있습니다. gkgktmd 20일 전
dt_clf=DecisionTreeClassifier() score=cross_val_score(dt_clf,X,y,cv=5) 로 돌리고 결과가 궁금한 데이터를 갖고 와서 돌리면 pred=dt_clf.predict(b) 라고 돌리면  NotFittedError: This DecisionTreeClassifier instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.이런 에러가 호출되더라구요 cross val score가 핏 프레딕트 kfold가 한번에 되는거라고 하셨는데  새로운 데이터를 학습시킨것에 적용해보려면 fit으로 한번 더 돌려야 하는건가요?

4
지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강의들을
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스