묻고 답해요
130만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
산탄대르 실습질문
산탄데르 은행 고객 만족 예측 실습-1에서ID 컬럼을 드롭하는데 특별한 이유가 있으신가요. 식별자라고 해서 삭제한다고 영상에서 말씀하셨는데 이유가 궁급합니다.!
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
군집화 실습 - 고객 세그멘테이션
파일을 받았는데 안열리는데 왜 그럴까요..? ㅠㅠ책으로는 군집화에서 소챕터 06입니다 ㅠㅠ
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
3장 마지막 부분 오류 ㅠㅠㅠㅠ
이 코드 왜 오류날까요 ㅠㅠㅠ 이런 식으로 오류가 나요 ㅠㅠㅠㅠㅠ
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
강의자료는 다운받을수 없나요?
안녕하세요. 강의를 잘 듣고 있습니다.유익한 강의를 해주셔서 감사합니다.강의 자료는 다운 받을 수 없나요?
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
classification을 통한 cluster 해석
안녕하십니까 교수님 cluster 해석과 관련하여 질문이 있어 글을 작성하게 되었습니다. 각 cluster별로 명확하게 어떤 feature가 많이 고려되었다는 것을 확인할 수 있는 방법이 있을까요? clustering을 진행한 뒤 다음과 같은 방법으로 cluster를 해석하려 하였습니다.1) 군집화를 진행하여 0, 1, 2, 3 의 cluster가 도출됨2) cluster를 label 데이터로 하여 classification을 진행3) feature importance를 활용하여 기술적으로 cluster를 해석 여기서 질문드리고 싶은 점은.. 각 군집별로 feature importance를 도출할 방법이 없을까요? (또는 XAI등 다른 방법이 있을까요??)현재 feature importance는 cluster 0, 1, 2, 3을 모두 반영한 feature importance를 도출해 명확하게 cluster의 특징을 해석하기 어려운 것 같습니다.. 각 cluster별로 어떤 feature가 많이 고려되었다는 것을 확인할 수 있는 방법이 있는 지가 궁금합니다. 항상 감사드립니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 데이터 import가 안돼요 ㅠㅠ
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 선생님 보스턴 가격예측 데이터 임포트가 안돼요 ㅠㅠ
-
해결됨확률과 통계 기초
4.2 질문입니다.
빨간 네모박스 친 부분이 어떻게 유도되는지 모르겠습니다.odd function이라는게 f(-x) = -f(x)인 함수를 이야기하는건 이해 했는데, 그것으로부터 어떻게 해야 저 빨간 네모박스 친 부분의 식이 유도되는지는 이해가 안돼서 질문드립니다..
-
해결됨확률과 통계 기초
3.2 21분 30초 무한급수 기대값 유도과정 질문입니다.
Geometric distribution에서 한번 수업해주신 기억이 있어서 더듬더듬 복습해보고 풀어보았는데저는 다른 값이 나오는데 어디서 오류를 범하고 있는지 모르겠습니다.. 혹시 한번 봐주실 수 있나요 ? 1 / 1-q가 나와야하는데 저는 자꾸 q / 1-q가 나오네요 ... 어디서 잘못된건지 혹시 도움 주실수 있는지 여쭤봅니다
-
미해결확률과 통계 기초
3.1 질문입니다.
HyperGeometric distribution인데 빨간 부분이(90)(18)이 맞지않나요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
Stacking 모델 질문드립니다.
안녕하십니까 선생님강의 수료하고도 부족한 부분이 많아 재수강하면서 문득 궁굼한 점이 생겨 글 남깁니다. 일전에 from sklearn.ensemble import StackingRegressor를 이용하여 메소드로 스태킹 모델에 관한 질문을 하기도 하였는데요. 베이스 모델의 하이퍼파라미터 튜닝을 진행하여 모델마다 5개의 매개변수를 튜닝하고 스태킹 모델에 베이스 모델로 사용할 경우 메타모델의 alpha값에 따른 예측 결과의 변화가 없을 수 있나요? 이상입니다.감사합니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
Recursive Feature Elimination 관련 질문드립니다.
안녕하세요. 좋은 강의 잘 듣고 있습니다.<신규> Recursive Feature Elimination과 SelectFromModel 실습 강의 부분에서svc = SVC(kernel="linear") # REFCV로 Feature들을 반복적으로 제거해가면서 학습/평가 수행. rfecv = RFECV(estimator=svc, step=1, cv=StratifiedKFold(2), scoring='accuracy', verbose=2) rfecv.fit(X, y) print("Optimal number of features : %d" % rfecv.n_features_)이 코드를 돌렸을 때 나오는 verbosity가 잘 이해되지 않아서 질문드립니다.Fitting estimator with 25 features. Fitting estimator with 24 features. Fitting estimator with 23 features. Fitting estimator with 22 features. ... Fitting estimator with 4 features. Fitting estimator with 3 features. Fitting estimator with 2 features. Fitting estimator with 25 features. Fitting estimator with 24 features. Fitting estimator with 23 features. Fitting estimator with 22 features. ... Fitting estimator with 4 features. Fitting estimator with 3 features. Fitting estimator with 2 features. Fitting estimator with 25 features. Fitting estimator with 24 features. Fitting estimator with 23 features. Fitting estimator with 22 features. ... Fitting estimator with 7 features. Fitting estimator with 6 features. Fitting estimator with 5 features. Fitting estimator with 4 features. Optimal number of features : 3cv=2라서 25~2 features로 코드가 2번 돌아가는 것 같은데그 후에 25~4(optimal number of features + 1)까지 한 번 더 돌아가는 이유가 무엇인가요? 추가적으로, plt.ylabel("Cross validation score (nb of correct classifications)") 여기 nb of correct classifications에서 nb가 number의 약자가 맞을까요? 이상입니다. 감사합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
파이썬 머신러닝 완벽한 가이드 교수님이 강의하신 .ppt 파일은 어디에서 더운로드 받을 수 있나요?
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
-
미해결확률과 통계 기초
3.1 강의 질문입니다.
5:05 부분에서 f(x)의 codomain이 왜 R인지 모르겠습니다.f(x) = x^2에서 무엇을 기준으로 codomain이 결정되는건가요..x^2이 음수를 가지지 못하니까 Range가 subset of R인건 이해가 가는데 그러면 codomain을 결정하는건 x인가요? 근데 함수에서 이미 x는 0보다 크다고 범위를 지정했으면 codomain도 그순간 같이 subset of R이 되는게 아닌가요? 헷갈립니당... 중요한건 아닌것같은데 헷갈리니 괜히 메롱합니다..
-
미해결확률과 통계 기초
8.1의 14분43초에서
P(X1=1)=pP(X2=1 | X1=1) =0P(X2=1 | X1=0) =p을 가지고 P(X2=1)을 어떻게 구할 수 있는건가요?만약에 P(X2=1)=p(1-p) 로 구했다고 한다면, X~Bernoulli(p)이면 P(X2=1)=p인데 애초에 가정에 모순아닌가요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
ML 모델 배포 질문
안녕하세요. 강의를 통해 많은 도움 받고 있습니다.강의 수강 중에 질문이 있습니다! 모델 학습할 때 학습 데이터를 전처리 과정(라벨 인코딩, 스케일링 등) 과 하이퍼 파라미터 튜닝을 거쳐 모델을 생성하는데요. 이 후 실제 서비스에 사용(웹 서비스에 rest api로 제공) 할 때, 실제 input 값으로 들어오는 값들을 이용해서 예측을 한다고 이해했습니다.이 때 실제 input 데이터는 데이터 전처리가 진행이 안되어서 문자열 데이터도 들어오고, 스케일링 작업이 진행이 안된 데이터일 텐데 이 때 모델 api 호출 전 코드 레벨에서 전처리 과정을 해줘야 하는 걸까요?질문 드리는 이유는 사이킷런 라이브러리를 통한 전처리를 진행해서 모델을 생성했고, 해당 모델을 rest api로 제공 하고 싶습니다. 그리고 해당 api를 spring boot 웹 어플리케이션에서 호출하여 사용하고자 하는데이때 실제 input 값들을 spring boot 코드에서 동일하게 데이터 전처리를 하여 전달하는게 어색해 보여서요.실무에서는 어떻게 서비스 하는지 궁금합니다.LightGBM 을 베이지안 최적화를 통해 하이퍼 파라미터를 찾을 때, n_estimators=100 으로 축소하여 최적의 하이퍼 파라미터를 찾고 나서, 최종적으로 n_estimators=400으로 최적의 하이퍼 파라미터와 함께 모델을 학습한 예제를 봤습니다.n_estimators=100 을 통해 찾은 최적의 하이퍼 파라미터가 n_estimators=400으로 증가시켰을 때도 동일하게 최적의 하이퍼 파라미터라서 이렇게 보여주신걸까요? 감사합니다.
-
미해결확률과 통계 기초
12분 30초 쯤
P_X(x) = sum P_XY(x,y_j) 이 부분이 이해가 안 되네요.12분 30초 쯤에 Y와 X 영역을 직관적으로 이해할 수 있는 그림을 보여주시는데혹시 P_x(X) 중에 Y 영역 바깥에 속하는 경우는 없나요? 아니면 같은 event를 표현하지만, RV만 X와Y로 다른 거라, sample space를 동일하게 보기 때문에 저게 성립하나요?
-
미해결확률과 통계 기초
8.4 ex01 random sameple size질문입니다.
Normal distribution일려면 RV size가 30 이상이었던 것으로 기억하는데 ex1처럼 20인 경우에도 적용 가능한가요?제가 놓치는 부분이 있는거 같아서 질문드리게 되었습니다
-
해결됨확률과 통계 기초
8.3 chi-square에서 자유도가 n. n-1로 나뉘게 되는 것은 random variable이 무엇인지 때문인가요?
Q0. 위 두 가지에서 자유도가 n, n-1로 나뉘는 이유가 궁금합니다Q1. 자유도에 대해서 아래 블로그를 통해서 이해했습니다https://ondemandstore.tistory.com/2위 글의 예시를 통해 보았을 때 자유도 관점에서 어떤 변수 10개 중에 9개를 선택 되었을 때 나머지 1개는 웬만하면 고정되는 게 아닌가 싶습니다. (Q1-1잘못 이해하였다면 자유도가 무엇인지도 궁금합니다)그런데 Chi-sqaure 첫 번째 조건에서 자유도가 n이 되는 이유는 Z가 independent standard normal이라 그런가요? 그렇다고 한다면 independent standard normal의 어떤 특징이 자유도를 n으로 만들게 하는지 궁금합니다Q2. X가 i.i.d normal distribution random variable인것이 chi-squared distribution의 자유도가 n-1이 되게 하는데 큰 영향을 미치나요?어떤 점이 그러한 영향을 미치게 되나요?i.i.d라서 그러한지, i.i.d && normal distribution이라 그러한지 혹은 그 외에 이유가 있는지 궁금합니다
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
조기중단기능(early stopping) 질문
안녕하세요. 좋은 강의 덕분에 많이 배우고 있습니다. XGBoost를 이용한 위스콘신 유방암 예측 강의에서 early stopping 기능에 대해서 설명 주셨고, 이는 검증 데이터를 기반으로 중단 할지 말지 판단한다고 이해했습니다.또한, 아래와 같이 학습 데이터, 검증 데이터 loss 값을 출력하여 확인해보면서, 검증 데이터가 더이상 감소하지 않는 구간이 있고설정한 early stopping 값만큼 감소하지 않는다면 중단한하고 이해했습니다.예제를 보면 train-logloss는 계속해서 감소하고 eval-logloss는 감소하지 않는 구간이 있는데똑같은 데이터를 나눈 것인데 차이가 발생하는 이유가 궁금합니다![0] train-logloss:0.65016 eval-logloss:0.66183 [1] train-logloss:0.61131 eval-logloss:0.63609 [2] train-logloss:0.57563 eval-logloss:0.61144 [3] train-logloss:0.54310 eval-logloss:0.59204강의에서 설명 주실때 학습 데이터는 계속해서 loss가 감소해서 오버피팅의 위험이 있기 때문에 early stopping은 검증 데이터로 진행해야 한다고 하셔서 이부분이 궁금합니다. 감사합니다.
-
해결됨확률과 통계 기초
Bias = 0은 항상 좋은가?
Bias 관점에서는 Bias값이 무조건 0이 되는 것이 좋은 것인가요?MSE 관점에서는 Bias와 분산과 합이 작은 방향으로 가야 하기 때문에 Bias가 무조건 0이 되는것이 좋은건 아닌가요?