묻고 답해요
130만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
타이타닉 생존자 예측 레이블인코딩 하는 이유
우선 너무 좋은 강의 덕분에 제가 제조업에서 데이터 사이언티스트 흉내나마 내고 있습니다.제 기억으론 레이블인코딩보더 원핫인코딩을 더 쓴다고 강의에서 들었던 거 같은데, 왜 타이타닉 생존자 예측에는 레이블인코딩을 한걸까요?그리고 근거는 없지만 선형회귀에서는 원핫인코딩을 해야할 거 같은데, 분류에서는 딱히 인코딩을 안해도 될 거 같은데 느낌이 드는데, 의견 여쭐 수 있을까요?그리고 Embarked 항목에 4개 정도 피쳐가 있는데(S, C, Q N) 예측할 데이터에 이 항목에 없는 데이터가 들어오면 어떻게 되나요? 예를 들면 A가 들어와도 중요한 피쳐가 아니면 크게 영향이 없을까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
분류 결정 임곗값이 너무 낮아질 경우
안녕하세요 강의 잘 듣고 있습니다!분류결정 임곗값에 대해서 강의를 들을땐 잘 이해가 됐었는데 복습하면서 정리하다보니 제가 잘 이해가 안되는 부분이 있어 질문드립니다.예를 들어, 분류 결정 임곗값이 0.3까지 낮아졌다고 할 때 pred_proba array에서 [0.49, 0.51] 이런 식으로 나온 경우 결국 0이나, 1이나 둘 다 임곗값은 넘었는데 어떤 걸로 예측하나요? 임곗값을 0.5로 설정했을땐 이럴 일이 없겠지만 임곗값을 낮췄을 때 어떻게 분류가 되는지 궁금합니다.확률 간의 비교를 해서 더 높은 확률로 분류를 하는지 아니면 단순히 둘 다 넘었을 땐 positive로 분류하는 건지 알고싶습니다!감사합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
L1,L2규제에 따른 회귀모델의 분류 (p.352~353)
안녕하세요 선생님. LogisticRegression 설명을 하시다가 사이킷런 LogisticRegression에서는 L1, L2 규제 중 하나를 선택해서 사용하셨는데, 앞에서 L1 규제면 릿지회귀, L2 규제면 라쏘회귀라고 배웠습니다.그럼 L1 규제를 사용한 LogisticRegression은 릿지회귀인가요 로지스틱회귀인가요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
이공계열에서 텍스트 분석, 추천 시스템 활용 사례 질문
안녕하세요. 권철민 선생님.머신러닝을 업무에 적용하기 위해 공부하고 있는 직장인입니다.분류, 회귀 등을 공부하다가 텍스트 분석과 추천 시스템까지 오게 되었는데요. 이 컨텐츠들은 이공계 직렬의 데이터 분석과는 조금 거리가 있다는 생각이 들어 건너 뛸까 생각했으나 제가 제대로 모르기 때문에 놓치는 부분이 있을까 하여 질문 드립니다..혹시 해당 기술이 이공계 데이터 분석에서 사용된 사례가 있을까요? 선생님의 지혜 여쭙습니다.
-
미해결인공지능 기초수학
강의교안 부탁드립니다
강의 수강하는 학생입니다.98thumb@naver.com으로 강의 교안 부탁드립니다
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
교재 p.331 예제코드 질문
안녕하세요 선생님. 교재 p.331 윗부분 예제코드에서 위와 같이 X 데이터를 임의로? 지정해주셨고, print문으로 '계수'라는 워딩을 써서 보충설명하셨는데요. (코드 전체적으로 '계수'라는 말이 거의 모든곳에 혼용되어 있어 좀 혼란스러운데)위의 X 데이터는 다항식의 '계수' 데이터가 아니라 x1, x2 에 입력값으로서 학습에 사용되는 피처 데이터인게 맞죠? 일종의 X_train 데이터로서요.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV 후에 다시 학습을 시키는 이유가 있을까요?
안녕하세요, 선생님.아직 초반이지만 강의를 정말 만족스럽게 듣고 있습니다. 추후 업데이트되는 내용도 강의에 반영해주셔서 감사드립니다.강의를 듣던 중 4:30쯤에 궁금한 점이 있어서 문의드립니다.앞에서 GridSearchCV로 최적 하이퍼 파라메터를 찾았으면 best_estimator_가 생성되었을거 같은데 다시 최적 파라메터를 사용한 rf_clf1를 생성하여 학습후 예측하는 이유가 따로 있을까요?bestestimator를 사용해서 예측해도 동일 accuracy가 나오는 걸 보면 큰 이유는 없을 거 같은데, 혹시나 이유가 있을까 하여 문의드립니다.감사합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
로지스틱 회귀 시그모이드와 회귀트리 질문
안녕하세요 선생님 로지스틱 회귀분석을 공부하다가 잘 이해가 가지 않는 부분이 있습니다로지스틱 회귀는 시그모이드 함수를 활용하는데 해당 함수의 최적의 선을 구하는데Y= 1/1+e^-x 인데여기서 x가 w0 + w0x1 … 의 값을 구해서 x에 넣는건가요?그리고 여기서 나온 시그모이드 값을 0.5이상이면 신용카드 사기(1) 그리고 0.5미만이면 사기아님(0)으로 간주하게 되는건가요? (그리고 기본이 0.5초과면 1이고 미만이면 0으로 되는건가요?) 회귀 트리 질문페이지 336에서 결정나무처럼 균일도를 가장 잘 나누는 것을 시작으로 0~3까지 나누는 것은 이해를 했는데여기서 구한 4개의 평균값이 2.5이면 레이블 2 or 3으로 간주하게 되는건가요? 감사합니다
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
성능 평가에 대한 질문
안녕하세요 권철민 선생님.분류까지 강의를 정말 재밌게 잘 들었습니다. 다만 질문이 하나 있는데요,정확도, 정밀도, 재현율, F1 스코어, AUC 등의 결과가 나왔을 때 이 모델이 우수한지 아닌지를 어떻게 평가하는지가 제 머릿속에서 조금 모호합니다.AUC가 어떻게 보면 정확도, 정밀도, 재현율의 단점을 보완한 끝판왕인줄 알았는데 강의를 듣다 보니 정밀도, 재현율이 낮아도 정확도, AUC만 높은 경우가 있더라고요..만약 제가 회사 실무에서 분석을 수행한 뒤 평가 지표를 설명할 때 어떤 지표를 중심으로 강조해야 좋을지 조언 부탁드립니다.그리고 예를 들어 90%라는 평가가 나왔을 떄 이게 진짜 좋음을 의미하는 것인지? 60%라는 평가가 나왔을 떄 이게 나쁜 모델을 사용했기 때문인지 아니면 주어진 데이터 대비 최선의 결과를 낸 것인지.. 등도 알고 싶네요
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV
GridSearchCV 에 y_test 값을 주지 않아도 알아서 정확도를 추론해 내는 걸 보니,굳이 GridSearchCV 의 인자로 X_train 과 y_train 을 줘야할 이유가 있을까요?그냥 titanic_df의 피처값과 타겟값을 GridSearchCV 의 인자로 던져주는 것이 우리의 목표인 accuracy를 향상시키는 방법 아닌가요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
LinearRegression 객체의 회귀계수와 피처 변수명 맵핑
p.327쪽에서위와 같이 lr.coef_ 의 회귀계수 값과 X_data.columns 의 피처 변수명을 맵핑시키는 데.. 이게 제대로 맵핑되는 원리가 무엇인가요? lr에 이미 X_data도 학습을 시켜 놓았으니 각 회귀계수별 피처명 정보가 어딘가에 들어가 있는 것이고, 이를 X_data.columns로 뽑아온다...? 맞나요..?
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
graphviz 시각화 주피터 출력 화면 관련 질문
안녕하세요 강의 잘듣고 있습니다! 다름이 아니라..graphviz 이용해서 주피터로 시각화를 진행하고 나서 전체 구조를 한눈에 파악하는 방법 없나요..?? 트리 깊이가 너무 깊어서 옆에 잘리는게 생깁니다 ㅜㅜ
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
정밀도를 100%로 만드는 법
1명의 확실한 P 예측과 나머지를 모두 N으로 예측했을 때 정밀도가 100%가 된다고 말씀하셨습니다.이 경우에 재현율도1 / 1+0 해서 100%되지 않나요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님, 여러 머신러닝 모델을 결합하는 다른 방법에 대해 질문있습니다.
안녕하세요 선생님! 지난번에 보내주신 쿠폰은 정말 감사했습니다. 덕분에 다음으로 공부할 것에 대해 계획할 수 있었습니다.개인 공부중에 궁금한 것이 있어 이렇게 여쭤봅니다.제가 사이버보안 분야를 머신러닝으로 향상시키는 것에 관심이 있는데요. 마침 앙상블 수업을 듣던 와중에 개인적으로 공부하고 있던 IDS(침입탐지) 데이터 셋 관련해서 어떤 아이디어가 생겨서요. 이 데이터셋은 다중 분류에 해당되는 것인데요.공격 패턴이 15가지(라벨) 정도라고 가정하겠습니다.이 라벨들을 저만의 방법으로 새로 분류하여 새로운 라벨들을 추가하여 만들어서 각각 학습하고 테스트를 진행해봤습니다. 첫번째로, 이진 분류로 라벨을 0, 1로 다시 만들어서모든 공격들은 1로 분류하고, 일반적인 것(양성,Benign)들은 0으로 분류하는 것이죠.즉, 공격이긴 공격인데 어떤 공격인지는 모르는 정도로만 시스템이 탐지하는 것입니다. 이럴 경우, 정확도, 정밀도, 재현율이 모두 99.97%로 아주 높은 확률로 탐지를 해냅니다. 두번째 분류는 비슷한 공격 패턴끼리 묶어서 그룹화를 한 뒤(즉, 라벨의 수를 줄이는 것입니다.) 학습 및 테스트를 하는 것입니다. 이럴 경우에도 아주 높은 점수를 보였습니다. 마지막 분류는 원래 라벨들입니다(전처리 작업 후). 역시 높은 점수를 보이긴 하나, 약간 낮은 점수를 보이는 일부 라벨들이 있습니다.그래서 말인데요. 혹시 이 세가지 모델을 연결해서 결과를 추출하는 방법이 있을 까요? 예를 들어, 먼저 공격인지 아닌지를 보고(첫번째 분류), 공격이라면 어떤 그룹에 속하는 지 보고(두번 째 분류), A라는 그룹이라면, 마지막 단계의 분류에서 세부적으로 어떤 라벨인지(세번째 분류)를 예측해내는 것이죠. 이렇게 연계하여 결과를 예측할 수 있는 모델을 만든다면, 점수가 약간 낮은 라벨들도 일부 보완할 수 있지 않을 까 생각되어서요.아이디어는 떠올랐는데, 구글에 검색해보니 앙상블이나, 파이프라인 등의 관련된 내용만 검색이 되어서요. 혹시 제가 모르는 어떤 기술이 있을까요? 선생님의 조언을 구합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
최종 분류 모델을 생성할 때, 어떤 데이터를 사용해야 하는지 궁금합니다.
안녕하세요.강사님의 여러 강의를 듣고 큰 도움을 받고 있습니다. 제가 궁금한 것은, 실제 업무 영역에서 분류모델을 적용하는 과정입니다. 모델을 생성한 후, 실제 타겟값을 알 수 없는 현실데이터에 적용을 해야 할 때, 어떤 데이터로 만든 모델을 적용해야 하는지 궁금합니다. 예를 들어서 강의에 따르면, 랜덤포레스트의 경우, 구축된 데이터 중에서 학습/테스트를 나누고 학습데이터를 가지고 모델을 만들고 테스트데이터를 가지고 최종정확도 성능을 확인하잖아요. 그리고 나서 이제는 타겟값을 알 수 없는 데이터에 적용을 하는 거잖아요. 그때 사용하는 머신러닝모델은 테스트데이터에서 높은 정확도가 나온 '학습데이터로 만든 모델'을 적용하는 거라고 생각하는데요.그런데, 최종적으로 높은 성능을 보인 모델의 하이퍼파라미터값을 학습데이터와 테스트데이터를 다 합친 것에 적용해서 최종 모델을 생성하고 실제로 타겟값을 알 수 없는 모델에 적용하는 건 괜찮은 걸까요? 궁금해서 여쭤봅니다. 항상 감사드립니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
예측정확도가 아닌 예측결과를 알 수 있나요?
머신러닝을 통해 하나의 데이터 값이 어느 값을 가질지 예측하는 결과를 알 수는 없나요?예를 들어 여러 붓꽃데이터를 학습시킨 다음에 하나의 붓꽃데이터를 준 후 기계가 이 붓꽃데이터가 어디에 들어가는지 판별하는것을 알 수 있나요?
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
행렬 분해 비용 함수 질문입니다.
안녕하세요! 멋진 강의를 들을 수 있어서 감사하고 있습니다.잠재요인 기반의 협업필터링 이해와 경사하강법을 이용한 행렬 분해 18:12 에서 나오는 L2 규제에 대해 궁금한 점이 있어서 문의 드립니다.수학에 약해서 공부해볼겸 수학적으로 해석을 하려는데, 다른 사이트의 참고 내용들을 보다보니 L2 규제에 시가마가 들어가던데 여기서는 안 들어가는 이유가 무엇인지 궁금합니다.감사합니다!
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
스케일링 1 강의 질문
데이터 전처리 - 스케일링 - 01 강의 1분47초에서표준화로 데이터의 피처 각각이 평균이 0 이고 분산이 1인 가우시안 정규분포로 바꿔준다고 했는데요. 원래 데이터가 정규분포를 가졌다면 xi_new (표준화 식)식 으로 평균이 0 이고 분산이 1인 정규분포를 도출할 수 있지만 애초에 정규분포를 이루지 않는 데이터의 경우는 해당 식을 적용한다고 해서 정규분포가 되지 않을 텐데 이런 경우는 어떻게 해서 정규분포로 만든다는 것일까요? 답변 부탁드립니다. 감사합니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
다중공선성 제거를 위한 VIF 10 이상 피쳐 제거
안녕하세요~! 본 강의에서는 사용되지 않았지만 다중공선성 제거를 위해 VIF 10 이상인 피쳐들은 drop하는 게 성능에 더 좋다고 하여 해당 방법을 적용하였는데 오히려 RMSE값이 0.3~0.5 정도 커지는 결과가 나타났습니다.(선형회귀, 릿지, 라쏘) VIF 제거 외에는 강의해주신 내용도 거의 유사한 방식으로 전처리 적용하였습니다. 1. VIF 10 이상인 피쳐들을 제거하는 게 예측률 향상에 무조건 좋은 것은 아닌건가요? 2. 만약 그렇다면 다중공선성 제거를 위한 추가적인 기법이 있을 것 같은데, 대표적으로 활용되는 방법이 어떤게 있을까요? 3. 마지막으로, VIF 10 이상인 피쳐들은 제거하여 성능이 향상되는 데이터셋의 대표적인 예와, 적용이 잘 안되는 예가 있을까요? 이번에도 애매한 질문을 드리는 점 죄송합니다. 아시는 수준에서 답변 주시면 정말 감사하겠습니다^^
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
Boston House 실습 표준화, 이상치제거 관련 질문입니다.
안녕하세요! ML공부하면서 강의 정말 많이 도움이 되고 있습니다^^ ㅇ skew를 사용한 왜곡도 제거부분에서(강의 8:00~10:00 부분) 1. skew 대신 standardscaler를 사용해 표준화 시키는 것은 단점이 있나요? (정규분포를 만들어주기 때문에 skew보다 더 정리를 잘해줄것 같은 생각이 듭니다.) 2. 또한 log를 씌워 정규분포와 비슷하게 만들어준다고 하셨는데, 이부분 또한 standardscaler를 적용하면 안되는 걸까요? ㅇ GrLivArea 이상치를 제거하는 부분에서(강의 14:00~18:00 부분) 1. 다른 이상치 제거방법(사분위수)을 써도 되는지? 2. 이상치 제거할 때 테스트 데이터에 이상치가 있는지 확인하고 제거하라고 하셨는데 학습검증단계에서 테스트 데이터를 참고해도 되는건가요? ㅇ 전처리 과정 순서를 기본전처리(null, 범주형 변환 등) → standardscaler → 이상치제거(IQR 등) → minmaxscaler 이렇게 기본틀로 잡고 머신러닝을 진행하고 있었는데 돌리는 모델이나 데이터별로 달라져야할까요? ㅇ 마지막으로, house price 타켓 컬럼을 log변환해서 학습을 진행을 하셨는데, 타겟값만 log를 씌워주고 다른 값들은 log를 안씌운 상태에서 학습을 하게되면 오류(수치상의 차이 기반)가 발생할 가능성은 없을까요? 질문이 난잡하긴 한데 간략하게나만 답변 주시면 감사하겠습니다! 감사합니다.