묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
pd.get_dummies 질문있습니다
안녕하세요 ! 캐글 주택가격 예측 강의에서 dummy_na 옵션에 대해 설명해주셨는데코드를 보니 적용을 안하시던데 이유가 궁금합니다! 일반적으로 null 값이 있는 object 컬럼에 대해서 dummy_na에 따른 성능 차이가 존재하나요 ??
-
해결됨확률과 통계 기초
3.2 12p composite functions of random variables 부분
안녕하새요노테이션 관련 질문하나 드립니다 LOTUS 직전 composite functions of random variables 예시를 들어주셨는데 이 예시속 또다른? x인 x_{k^*} 에서 스타? 애스터리스크? 의 의미가 무엇인지 궁금합니다.
-
미해결확률과 통계 기초
geometirc 기댓값 유도하는 방법
3.2 강의 중에서 21:46 부분에서sum (q^i) = 1 / 1-q가 어떻게 나오는지 잘 이해가 안갑니다 ㅠㅠ숙제라고 하셨는데 어떻게 해야하는지 잘 모르겠네요...
-
미해결AB 테스트 실무자 완벽 가이드
'p-value는 기존 귀무가설이 발생할 확률'이라고 하셨는데요. 이건 잘못된 설명 아닌가요?
안녕하세요.모르고 말씀하신 것은 아닌 것 같은데요. 수정이 필요할 것 같습니다.
-
미해결AB 테스트 실무자 완벽 가이드
MDE의 D는 detectable입니다.
안녕하세요.오타인 줄 알았는데, 발음도 defectable이라고 하셔서 잘못 알고 계신 것 같아 말씀드려요!
-
미해결AB 테스트 실무자 완벽 가이드
디폴트 정렬 상태로 전환하지 않고 필터 정렬 방법을 바꾼 유저는 제외해야 하나요?
안녕하세요.A: 판매순B: 배달비 낮은순C: 별점 높은순D: 배달 빠른순이렇게 필터 디폴트 값을 각각 4개의 그룹으로 나누어 보여준 뒤 각 그룹에 속하는 유저들의 output metric(ARPU, 전환율 등)을 비교하는 것으로 보이는데요.만약 A 그룹의 유저가 스스로 필터를 바꿔서 "별점 높은순"을 선택한 뒤 결제하거나 전환했다면, 기존의 "판매순"으로 전환한 것이 아니니 이런 유저들은 결과 계산할 때 제외하고 봐야하는 것인가요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
8.6 토픽 모델링
선생님! 제가 토픽 모델링 부분 공부중인데 강의자료 8.6 부분을 그대로 돌렸는데 계속해서 'CountVectorizer' object has no attribute 'get_feature_names' 오류가 뜨네요?? 문제가 뭘까요ㅜ
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
xgboost/ light gbm 재학습 질문
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 선생님 안녕하세요. 수업을 듣다 질문이 있어 글을 남깁니다 ㅠㅠ XGboost 실습을 할 때는,xgb_wrapper.fit(X_train, y_train, verbose=True)xgb_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric="logloss",eval_set=evals, verbose=True)이렇게 재학습 시킬 때, X_tr, y_tr을 사용했는데lightgbm 실습을 할때는X_train, y_train으로 테스트 시키는 부분이 없어서 궁금합니다.. light gbm 실습 코드 ))X_train, X_test, y_train, y_test=train_test_split(X_features, y_label,test_size=0.2, random_state=156 )X_tr, X_val, y_tr, y_val= train_test_split(X_train, y_train,test_size=0.1, random_state=156 )lgbm_wrapper = LGBMClassifier(n_estimators=400, learning_rate=0.05) evals = [(X_tr, y_tr), (X_val, y_val)]lgbm_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric="logloss",eval_set=evals, verbose=True)
-
미해결확률과 통계 기초
2.1 counting metthods part 1 32:30
선생님 문제를 간단하게 만드는 과정에서초록색 영역이 추가되면서 어떻게 분자와 분모가 n!, (n-k)!로 유도가 되는건가요..? 그리고 ...2*1의 의미는 0까지는 곱하지 않는 다는 의미인가요? (n-k-1)이면 n=5이고, k=4이면 계산하지 않는 다는건가요? (수식이 이해가 가지 않습니다)
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
4장 신규추가된 feature selection_basic에서 1째 코드에 에러 발생합니다.
4장 신규추가된 feature selection 강의에서 1번째 코드에서 다음과 같은 오류가 뜨는데요... 제 사이킷런 버전은 1.2.2 입니다. --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) Cell In[6], line 25 23 plt.xlabel("Number of features selected") 24 plt.ylabel("Cross validation score (nb of correct classifications)") ---> 25 plt.plot(range(1, len(rfecv.grid_scores_) + 1), rfecv.grid_scores_) 26 plt.show() AttributeError: 'RFECV' object has no attribute 'grid_scores_'혹시 가능한 명령어가 뭐가 있는지 검색해 보았는데, 아래와 같이 뜹니다. 대체될 수 있는 명령어가 뭐가 있을까요?[x for x in dir(rfecv) if not x.startswith('_')][11]:['classes_', 'cv', 'cv_results_', 'decision_function', 'estimator', 'estimator_', 'fit', 'fit_transform', 'get_feature_names_out', 'get_params', 'get_support', 'importance_getter', 'inverse_transform', 'min_features_to_select', 'n_features_', 'n_features_in_', 'n_jobs', 'predict', 'predict_log_proba', 'predict_proba', 'ranking_', 'score', 'scoring', 'set_output', 'set_params', 'step', 'support_', 'transform', 'verbose']
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
graphviz 설치 후 에러메시지..문의드립니다.
graphviz 설치하고 실습파일 4-2의 3번째줄까지 코드를 작성하면 '[Errno 13] Permission denied: PosixPath('dot')' 가 발생합니다. 해결방법을 알 수 있을까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
실루엣 값을 기준으로 필터한 값을 target값으로 선정
안녕하세요. 교수님. 이번 강의를 보면서 실루엣 값과 각 군집의 평균값에 대개 배웠는데요. 이렇게 구해진 각 값들의 실루엣 계수들에 대해 어느정도 값을 기준으로 필터링하여 해당 클러스터된 각 데이터를 target 값으로 사용하여 다른 데이터의 회귀분석 예측모델을 사용하려는 생각을 조금 해보았는데 이런 진행 방식이 맞는걸까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
PCA 3개이상에서의 2차원 군집화시 의미
안녕하세요. 강의를 듣고있는 학생입니다.강의에서는 PCA1과 PCA2를 기반으로 2차원에서 군집분류를 하는데 PCA가 3이상이 있을 경우에 PCA2와 PCA3을 2차원으로 하여 시각화를 하는 건 의미가 있을까요?
-
미해결확률과 통계 기초
3-1, example 9 다이어몬드 선택 문제에서
example 9 에서 Px(x) = (10, 2)(90, 8) / (100, 20) 으로 교안이나 강의에서 소개가 되어 있는데10개가 아니라 20개를 무작위로 선택하는 것이니, (90, 18) 이여야 하지 않나요? 가품에서 2개, 정품에서 18개 뽑는 거니까요.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
4.3 앙상블학습 실습 데이터 에러
두번째 블록 코드를 수정없이 그대로 실행했는데 오류가 떠서 질문드립니다AttributeError Traceback (most recent call last) Input In [4], in <cell line: 13>() 11 # VotingClassifier 학습/예측/평가. 12 vo_clf.fit(X_train , y_train) ---> 13 pred = vo_clf.predict(X_test) 14 print('Voting 분류기 정확도: {0:.4f}'.format(accuracy_score(y_test , pred)))AttributeError: 'NoneType' object has no attribute 'split'무엇이 문제일까요??...
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
4.2 결정트리 Jupyter notebook 에러 관련 문의드립니다.
4.2 결정트리 Jupyter notebook 에러 안녕하세요? 올려주신 강의 덕분에 도움을 참 많이 받고 있습니다. 정말 감사드립니다. 다름이 아니라, 수업 중 결정트리 실습 강의 첫번째 부분 강의를 들으며 코드실행을 진행하던 중 다음과 같은 에러가 발생하며, 결과값 도출이 되지 않아 문의를 드립니다. 에러코드는 다음과 같습니다. from sklearn.tree import DecisionTreeClassifierfrom sklearn.metrics import accuracy_score# 예제 반복 시 마다 동일한 예측 결과 도출을 위해 random_state 설정dt_clf = DecisionTreeClassifier(random_state=156)dt_clf.fit(X_train , y_train)pred = dt_clf.predict(X_test)accuracy = accuracy_score(y_test , pred)print('결정 트리 예측 정확도: {0:.4f}'.format(accuracy))# DecisionTreeClassifier의 하이퍼 파라미터 추출print('DecisionTreeClassifier 기본 하이퍼 파라미터:\n', dt_clf.get_params())--------------------------------------------------------------------------- ValueError Traceback (most recent call last) ~\AppData\Local\Temp\ipykernel_25120\762432765.py in <module> 4 # 예제 반복 시 마다 동일한 예측 결과 도출을 위해 random_state 설정 5 dt_clf = DecisionTreeClassifier(random_state=156) ----> 6 dt_clf.fit(X_train , y_train) 7 pred = dt_clf.predict(X_test) 8 accuracy = accuracy_score(y_test , pred) ~\anaconda3\lib\site-packages\sklearn\tree\_classes.py in fit(self, X, y, sample_weight, check_input, X_idx_sorted) 935 """ 936 --> 937 super().fit( 938 X, 939 y, ~\anaconda3\lib\site-packages\sklearn\tree\_classes.py in fit(self, X, y, sample_weight, check_input, X_idx_sorted) 163 check_X_params = dict(dtype=DTYPE, accept_sparse="csc") 164 check_y_params = dict(ensure_2d=False, dtype=None) --> 165 X, y = self._validate_data( 166 X, y, validate_separately=(check_X_params, check_y_params) 167 ) ~\anaconda3\lib\site-packages\sklearn\base.py in _validate_data(self, X, y, reset, validate_separately, **check_params) 576 # :( 577 check_X_params, check_y_params = validate_separately --> 578 X = check_array(X, **check_X_params) 579 y = check_array(y, **check_y_params) 580 else: ~\anaconda3\lib\site-packages\sklearn\utils\validation.py in check_array(array, accept_sparse, accept_large_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, estimator) 744 array = array.astype(dtype, casting="unsafe", copy=False) 745 else: --> 746 array = np.asarray(array, order=order, dtype=dtype) 747 except ComplexWarning as complex_warning: 748 raise ValueError( ~\anaconda3\lib\site-packages\pandas\core\generic.py in __array__(self, dtype) 2062 2063 def __array__(self, dtype: npt.DTypeLike | None = None) -> np.ndarray: -> 2064 return np.asarray(self._values, dtype=dtype) 2065 2066 def __array_wrap__( ValueError: could not convert string to float: 'tBodyAcc-mean()-X'혹시 몰라 사진을 함께 첨부하였습니다.늘 감사합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
MeanShift(best_bandwidth) TypeError
'KDE(Kernel Density Estimation)의 이해와 사이킷런을 이용한 MeanShift 군집화 실습' 수강중 12:00 즈음 '최적의 bandwidth 값을 estimate_bandwidth()로 계산 한 뒤에 다시 군집화 수행' 차례입니다.첨부 사진상 ln [16] 아래서 세번째 meanshift= MeanShift(best_bandwidth)를 제거하면 오류없이 강의와 같은 결과 [0 1 2]를 출력하기는 합니다.그런데 이게 meanshift= MeanShift(bandwidth=best_bandwidth)를 삭제 했기 때문에 그 전에 실행한 meanshift= MeanShift(bandwidth=1) 때문에 나온 결과인 것 같습니다.즉, bandwidth=1.689가 아닌 bandwidth=1로 적용된 것 같습니다.이 때문인지 이후 시행되는 '군집별 중심 시각화'에서도 meanshift_label이 0과 1이 switch 되었습니다.또한 meanshift_label 2의 데이터 하나가 0 쪽으로 클러스터링 되기도 했습니다. print(clusterDF.groupby('target')['meanshift_label'].value_counts())의 결과입니다. (target 2의 meanshift_label이 65+1=66이 아닌 66임)target meanshift_label0 0 671 2 672 1 66Name: meanshift_label, dtype: int64오류 없이 meanshift= MeanShift(bandwidth=best_bandwidth)를 제대로 적용하려면 어떻게 해야 할까요? 설치할 때 기억은 잘 안나지만 version을 통일하라 강조하신 것 외 다른 설치 파일은 2023년 4월 설치했기 때문에 version이 다를 수 있습니다. - 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
K-Fold 등의 교차 검증 이후 최종적인 best model은 어떻게 선택하나요?
K-Fold 교차 검증에 대하여 수업을 들었습니다. K-Fold의 목적, 특징, 수행 방법에 대해서는 설명이 이해가 다 되었는데요, 그렇게 해서 최종적으로 어떤 모델을 선택하는지에 대하여서는 전혀 설명이 되어있지 않아서 질문드립니다. N개의 Fold로 데이터를 나누어서 N번의 교차 검증을 하면, N번의 fitting 결과와 각 Iteration에서의 accuracy가 나오게 됩니다. N번의 fitting을 수행하기 때문에 각 iteration에서는 결과적으로 다른 모델이 생성이 될 것입니다.강의에서는 N번의 Iteration의 개별 accuracy를 모아서 평균을 내고, 이 평균값으로 모델의 성능을 평가하라고만 되어있습니다. 그럼 최종적으로 N번의 Iteration에서 나온 N개의 모델 중에 어떤 것을 실제 최적화된 모델로 사용하면 되는 것입니까? GridSearchCV를 통한 하이퍼파라미터 튜닝에서는 수행의 결과로 best_estimator_를 리턴해주기 때문에 이것을 쓰면 되는 것을 알겠습니다만, 일반적인 K-Fold나 cross_val_score() 함수를 통한 교차 검증의 결과로는 best estimator를 얻는 방법을 설명해주지 않고 있습니다. 이 부분에 대한 답변 부탁드립니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
부트스트래핑 샘플링 질문드립니다
안녕하세요! 강의 잘 듣고 있습니다.부트스트래핑 샘플링에서1차원 데이터로 여러 서브 세트를 만든 부분은 이해가 되었습니다.그런데 생각해보니 랜덤 포레스트 입력으로 들어가는 데이터셋의 형태는 2차원 dataframe입니다.이러한 2차원 dataframe은 어떻게 부트스트래핑 샘플링이 되는지 여쭤보고 싶습니다.1차원에선 개별 데이터가 중첩되는 식이라면, 2차원에선 개별 행이 중첩되는 방식인가요? 감사합니다.^^
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
트리계열 파라미터 max_features 작동 방식
여러 트리 계열 파라미터 중 max_features는 최적의 분할을 고려하여 피처의 개수를 선정한다고 했습니다. 이것의 작동 방식이 궁금합니다.피처의 개수를 선정한다고 했는데, 전체 피처 중 트리계열 학습기를 적용하기 전, 일부만 추출(일부 피쳐 선택)을 하고 적용하는 것인가요?(예시로, max_features= 'sqrt', iris데이터 피처의 개수: 120라고 가정하면, 아이리스 데이터 120개중 랜덤으로 루트120개를 뽑고, 뽑힌 피처들로 알고리즘을 수행) 하는 것인가요? 실제로 Graphviz모듈로 max_features='sqrt'로 실행해보니, 첫번째 노드의 samples 데이터가 120개로 원본 데이터와 같아서 질문드립니다. 제가 잘못 이해한 부분이 어디 일까요..