월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
XGBoost
선생님 강의 덕분에 머리 속에 정리 안되는 개념들이 하나씩 정리되고 있습니다.XGBoost 파트에서 파이썬 래퍼 XGBoost와 사이킷런 래퍼 XGBoost로 나눠지는데 early_stopping_rounds를 설정해서 결과를 보면 파이썬 래퍼의 경우 [0] train-logloss:0.65016 eval-logloss:0.66183 [1] train-logloss:0.61131 eval-logloss:0.63609 [2] train-logloss:0.57563 eval-logloss:0.61144 이런식으로 학습데이터에 대한 logloss와 검증데이터에 대한 logloss값을 확인 할 수 있었습니다. 사이킷런 래퍼의 경우[0] validation_0-logloss:0.65016 validation_1-logloss:0.66183 [1] validation_0-logloss:0.61131 validation_1-logloss:0.63609 [2] validation_0-logloss:0.57563 validation_1-logloss:0.61144 오른쪽에 있는 valiation_1-logloss로 살펴보는데,왼쪽에 있는 valiation_0-logloss는 파이썬 래퍼와 마찬가지로 학습데이터에 대한 logloss인가요? validation_0-logloss는 어떤 경우에 보는지 궁금해서 여쭤봅니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
하이퍼 파라미터 튜닝 범위에 대해 궁금합니다.
안녕하세요 강의 너무 잘듣고 있습니다덕분에 좋은 강의 들으며 실력이 증가하는걸 느끼고 있습니다.다름이 아니라 제가 캐글에서 데이터를 따와서 프로젝트를 하고 있는데 베이지안 최적화 방법을 통해서 하이퍼 파라미터를 튜닝하고 있는데 오히려 성능이 떨어지는 모습을 보입니다모델은 radomforest, xgboost, lightgbm 이렇게 쓰고 있고 randomforestn_estimators : 1000~2000, 100간격max_depth : 5~15, 1간격min_samples_split : 10~20, 1간격xgboost n_estimators : 1000~2000, 100간격max_depth : 5~15, 1간격learning_rate : 0.01~0.2min_child_weight : 8~20, 1간격lightgbmn_estimators : 1000~2000, 100간격num_leaves : 31~100, 1간격learning_rate : 0.01~0.2min_child_samples : 20~100, 1간격이렇게 해서 돌리는데 randomforest는 성능이 더 떨어지고 나머지 두 모델은 조금은 좋아졌지만 효과가 미비합니다.학습 데이터가 2만 6천개 정도인데 말단 노드가 가지는 최소 개수를 늘려야 할까요??계속 범위를 바꾸면서 하고 있는데 어느정도로 해야하는지 감이 오질 않습니다. 답변해주시면 감사하겠습니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
get_cost 함수 w1[0,0]가 들어가는 이유
안녕하세요 강사님 수업 잘 듣고있습니다!파이썬 코드로 경사 하강법 구현하기에서 def get_cost 함수 y_pred = w1[0,0] * X + w0 부분에 질문이 있습니다.현재 코드가 w1와 w0 둘다 shape이 (1,1)이라서 그런지 더욱 헷갈리는 것 같습니다. 왜 w1[0,0]가 들어가고, w0은 전체가 들어가는지 정확하게 이해가 되지 않습니다.y_pred = w1 * X + w0 이렇게 넣어도 반환되는 값은 똑같은데 만약 feature가 여러 개가 있어도 똑같이 w1[0,0]을 넣는 것인지 아니면 그거랑 상관없이 다르게 이해하고 있는 것인지... 잘 모르겠습니다!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
실루엣 계수와 실루엣 스코어, 그리고 좋은 군집 판단의 객관적인 기준
안녕하세요 실루엣 계수 및 실루엣 스코어 관련 강의를 들으면서 아래와 같이 궁금한점이 생겨서 질문드립니다!실루엣 계수가 -1~1이고 ,이들의 평균인 실루엣 스코어가 0~1이라고 하셨는데, 범위가 -1~1인 숫자들끼리 평균을 내면 사실 이에대한 결과값인 실루엣스코어의 범위도 똑같이 -1~1이 되어야 할 것 같은데, 범위가 0~1인 이유가 궁금합니다!좋은 군집을 판단하는 기준을 말씀하실 때 실루엣 스코어와 각 군집별 실루엣계수 평균값들의 편차를 동시에 고려해야 한다고 하셨습니다. 다만 위와같은 판단 기준이 다소 애매모호해 보이는데 실무에서는 정확히 어떤 기준으로 위와같은 두 가지 판단기준을 '동시에&복합적으로' 고려하는지 예시가 궁금합니다.ex) 각 군집화 케이스별로 군집별 실루엣 계수의 평균값에대한 표준편차를 산출하고 이를 비교하고, 동시에 각 군집화 케이스별로 실루엣스코어를 산출하여 이 두 가지 값 중 어떤것에 우선순위를 두고 평가하는지 등
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
lightgbm 버전 관련 질문 드립니다!
안녕하세요 선생님:)lightgbm 설치 관련 질문을 드립니다. (우선 저는 mac을 사용하고 있습니다.)제가 lightgbm을 이전에 설치한 적이 있어서 version을 프린트해봤었는데, 3.2.1 버전이 떴습니다.그래서 upgrade를 하고 버전이 업그레이드 되었다는 메시지가 떴는데, 다시 .__version__을 치고 확인해보니 이전과 같이 3.2.1 버전이 뜨네요..수업에 문제가 없는 건지 질문드립니다! 아래에 제가 친 코드와 결과 스크린샷 남깁니다. 감사합니다!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
fit_transform(X)의 역할
kmeans.fit_transform(irisDF)를 하면 나오는 결과는150가지의 피처값들(총 4가지 피처)과 각각의 피처에 대응하는 클러스터의 센트로이드 사이의 거리를 4차원에서 3차원으로 줄여서 표현한 것 맞나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
이제 중학교, 고등학교 수학에서 행렬을 배우지 않아요 ㅠㅠ
이젠 대학교의 선형대수나 대학 수학강의에서만 배워요 ㅠㅠ
- 해결됨[개정판] 파이썬 머신러닝 완벽 가이드
6단원, 7단원 학습순서 변경
안녕하세요 선생님. 5단원까지 작 마쳤는데, 급하게 7단원의 군집화 내용이 필요할 일이 생겨서 7단원 먼저 학습 후 6단원으로 넘어가려고하는데, 혹시 이렇게 학습 진행해도 상관 없을까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
타이타닉 생존자 예측 레이블인코딩 하는 이유
우선 너무 좋은 강의 덕분에 제가 제조업에서 데이터 사이언티스트 흉내나마 내고 있습니다.제 기억으론 레이블인코딩보더 원핫인코딩을 더 쓴다고 강의에서 들었던 거 같은데, 왜 타이타닉 생존자 예측에는 레이블인코딩을 한걸까요?그리고 근거는 없지만 선형회귀에서는 원핫인코딩을 해야할 거 같은데, 분류에서는 딱히 인코딩을 안해도 될 거 같은데 느낌이 드는데, 의견 여쭐 수 있을까요?그리고 Embarked 항목에 4개 정도 피쳐가 있는데(S, C, Q N) 예측할 데이터에 이 항목에 없는 데이터가 들어오면 어떻게 되나요? 예를 들면 A가 들어와도 중요한 피쳐가 아니면 크게 영향이 없을까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
분류 결정 임곗값이 너무 낮아질 경우
안녕하세요 강의 잘 듣고 있습니다!분류결정 임곗값에 대해서 강의를 들을땐 잘 이해가 됐었는데 복습하면서 정리하다보니 제가 잘 이해가 안되는 부분이 있어 질문드립니다.예를 들어, 분류 결정 임곗값이 0.3까지 낮아졌다고 할 때 pred_proba array에서 [0.49, 0.51] 이런 식으로 나온 경우 결국 0이나, 1이나 둘 다 임곗값은 넘었는데 어떤 걸로 예측하나요? 임곗값을 0.5로 설정했을땐 이럴 일이 없겠지만 임곗값을 낮췄을 때 어떻게 분류가 되는지 궁금합니다.확률 간의 비교를 해서 더 높은 확률로 분류를 하는지 아니면 단순히 둘 다 넘었을 땐 positive로 분류하는 건지 알고싶습니다!감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
L1,L2규제에 따른 회귀모델의 분류 (p.352~353)
안녕하세요 선생님. LogisticRegression 설명을 하시다가 사이킷런 LogisticRegression에서는 L1, L2 규제 중 하나를 선택해서 사용하셨는데, 앞에서 L1 규제면 릿지회귀, L2 규제면 라쏘회귀라고 배웠습니다.그럼 L1 규제를 사용한 LogisticRegression은 릿지회귀인가요 로지스틱회귀인가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
이공계열에서 텍스트 분석, 추천 시스템 활용 사례 질문
안녕하세요. 권철민 선생님.머신러닝을 업무에 적용하기 위해 공부하고 있는 직장인입니다.분류, 회귀 등을 공부하다가 텍스트 분석과 추천 시스템까지 오게 되었는데요. 이 컨텐츠들은 이공계 직렬의 데이터 분석과는 조금 거리가 있다는 생각이 들어 건너 뛸까 생각했으나 제가 제대로 모르기 때문에 놓치는 부분이 있을까 하여 질문 드립니다..혹시 해당 기술이 이공계 데이터 분석에서 사용된 사례가 있을까요? 선생님의 지혜 여쭙습니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
교재 p.331 예제코드 질문
안녕하세요 선생님. 교재 p.331 윗부분 예제코드에서 위와 같이 X 데이터를 임의로? 지정해주셨고, print문으로 '계수'라는 워딩을 써서 보충설명하셨는데요. (코드 전체적으로 '계수'라는 말이 거의 모든곳에 혼용되어 있어 좀 혼란스러운데)위의 X 데이터는 다항식의 '계수' 데이터가 아니라 x1, x2 에 입력값으로서 학습에 사용되는 피처 데이터인게 맞죠? 일종의 X_train 데이터로서요.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV 후에 다시 학습을 시키는 이유가 있을까요?
안녕하세요, 선생님.아직 초반이지만 강의를 정말 만족스럽게 듣고 있습니다. 추후 업데이트되는 내용도 강의에 반영해주셔서 감사드립니다.강의를 듣던 중 4:30쯤에 궁금한 점이 있어서 문의드립니다.앞에서 GridSearchCV로 최적 하이퍼 파라메터를 찾았으면 best_estimator_가 생성되었을거 같은데 다시 최적 파라메터를 사용한 rf_clf1를 생성하여 학습후 예측하는 이유가 따로 있을까요?bestestimator를 사용해서 예측해도 동일 accuracy가 나오는 걸 보면 큰 이유는 없을 거 같은데, 혹시나 이유가 있을까 하여 문의드립니다.감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
로지스틱 회귀 시그모이드와 회귀트리 질문
안녕하세요 선생님 로지스틱 회귀분석을 공부하다가 잘 이해가 가지 않는 부분이 있습니다로지스틱 회귀는 시그모이드 함수를 활용하는데 해당 함수의 최적의 선을 구하는데Y= 1/1+e^-x 인데여기서 x가 w0 + w0x1 … 의 값을 구해서 x에 넣는건가요?그리고 여기서 나온 시그모이드 값을 0.5이상이면 신용카드 사기(1) 그리고 0.5미만이면 사기아님(0)으로 간주하게 되는건가요? (그리고 기본이 0.5초과면 1이고 미만이면 0으로 되는건가요?) 회귀 트리 질문페이지 336에서 결정나무처럼 균일도를 가장 잘 나누는 것을 시작으로 0~3까지 나누는 것은 이해를 했는데여기서 구한 4개의 평균값이 2.5이면 레이블 2 or 3으로 간주하게 되는건가요? 감사합니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
성능 평가에 대한 질문
안녕하세요 권철민 선생님.분류까지 강의를 정말 재밌게 잘 들었습니다. 다만 질문이 하나 있는데요,정확도, 정밀도, 재현율, F1 스코어, AUC 등의 결과가 나왔을 때 이 모델이 우수한지 아닌지를 어떻게 평가하는지가 제 머릿속에서 조금 모호합니다.AUC가 어떻게 보면 정확도, 정밀도, 재현율의 단점을 보완한 끝판왕인줄 알았는데 강의를 듣다 보니 정밀도, 재현율이 낮아도 정확도, AUC만 높은 경우가 있더라고요..만약 제가 회사 실무에서 분석을 수행한 뒤 평가 지표를 설명할 때 어떤 지표를 중심으로 강조해야 좋을지 조언 부탁드립니다.그리고 예를 들어 90%라는 평가가 나왔을 떄 이게 진짜 좋음을 의미하는 것인지? 60%라는 평가가 나왔을 떄 이게 나쁜 모델을 사용했기 때문인지 아니면 주어진 데이터 대비 최선의 결과를 낸 것인지.. 등도 알고 싶네요
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
신용카드 사기검출 강의의 궁극적인 목표
강의를 너무 잘 수강하고 있습니다. 감사하다는 말씀 꼭 전하고 싶네요:) 궁금한 게 있습니다. 지금 신용카드 사기검출을 다 들었고, 다른 캐글데이터 실습 강의들도 들어오고 있습니다. 그런데 강의는 이러한 방식으로 실습하고, 정밀도 재현율을 이상적으로 만들어 놓은 상태에서 강의가 끝나고 마는데요이 다음 스텝에서 지식들이 실제로 어떻게 쓰이는지, 이 다음에는 어떤 업무가 주어지는지? 에 대한게 궁금합니다.단지 지표들을 높여놓고 강의가 끝나버리는게 ‘이걸 왜 배우는가?’ 체감이 가지 않아서요!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV
GridSearchCV 에 y_test 값을 주지 않아도 알아서 정확도를 추론해 내는 걸 보니,굳이 GridSearchCV 의 인자로 X_train 과 y_train 을 줘야할 이유가 있을까요?그냥 titanic_df의 피처값과 타겟값을 GridSearchCV 의 인자로 던져주는 것이 우리의 목표인 accuracy를 향상시키는 방법 아닌가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
스태킹 알고리즘 관련 질문
교재 279기준으로 해서 질문이 있습니다각 모델 1-3부터 예측을 해서 예측에 나온 결과값으로 스태킹을 하는 부분은 이해를 했습니다하지만 여기 predict를 해서 나온 결과값들이 (암 환자이면 암1 암이 아니면 0) 0,1로 구성된 레이블이 나오는데 이 데이터로 어떻게 학습을 하나요..?정리하면 기존에 암 데이터 피처는 종양크기, 위치, 색 등으로 피처데이터로 구성되어서 학습하고 예측 했는데스태킹에서 predict로 나온 결과값들(0,1,1,0 예로 들어) 어떻게 학습을 하게 되는 건가요…? 추가적으로 메타모델이 로지스틱이면 앞선 데이터들로 어떻게 로지스틱 알고리즘을 활용하여 결과를 도축하나요…? 학습과 레이블은 0,1식으로 되어있는데.. 감사합니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
LinearRegression 객체의 회귀계수와 피처 변수명 맵핑
p.327쪽에서위와 같이 lr.coef_ 의 회귀계수 값과 X_data.columns 의 피처 변수명을 맵핑시키는 데.. 이게 제대로 맵핑되는 원리가 무엇인가요? lr에 이미 X_data도 학습을 시켜 놓았으니 각 회귀계수별 피처명 정보가 어딘가에 들어가 있는 것이고, 이를 X_data.columns로 뽑아온다...? 맞나요..?