월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
coef와 그래프 모습에서 보이는 회귀선 간의 관계 문의
안녕하세요. 아래와 같이 13개 feature 모두 그래프로 그려보았습니다. 그런데 하단을 보면 AGE, B, INDUX, TAX feature는 price와의 회귀 직선이 음의 상관관계로 나오는데, 강의에서 coef를 보면 0으로 나옵니다. 그리고 RAD는 그래프로 보면 음의 상관 관계인데 coef는 0.4가 나옵니다. 개별 feature들과 price간의 관계를 보면 음의 상관관계인데 모든 feature들을 이용해 linear regression을 만들어봤을 때의 coef는 각 개별 상관관계와는 다르게 될 수도 있는 것인지요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
permutation importance 학습할 때 질문드립니다.
안녕하세요 질문이 있어 글을 남깁니다. 강의 내에서 캐글 같은 곳은 테스트 데이터와 학습데이터가 다른 유형인 경우도 있다고 하셨습니다. 여기서 permutation importance를 학습 시킬 때 tree 계열의 feature importance는 학습데이터를 기반으로 생성되기 때문에 테스트 데이터에 대해서는 달라질 수 있다고 했는데, permutation importance도 학습할 때 train data에서 랜덤으로 추출된 testdata(validation data)로 학습하는 거라고 이해했습니다 맞나요?? validation data도 결국에는 train data와 같은 형식이라 feature importance의 학습법과 같이 어떻게 보면 train data를 학습시키는 것과 비슷한 것아닌가요 ..? ㅠㅠㅠㅠ 너무 헷갈립니다.. 혹시 제가 잘못 이해했나요 ... ?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
지도학습 프로세스 및 데이터 처리 관련 질문
안녕하세요? 강의를 들으면서 공부하다가 조금 개념이 덜 잡혀서 질문드립니다. 머신러닝 지도학습 프로세스: 데이터 전처리 -> 데이터세트분리 -> 모델학습 및 검증평가 -> 예측수행 -> 평가 질문사항 1) 여기서 교차검증은 데이터세트분리 후에 모델학습을 하면서 한다고 생각하면 되는건가요? 아니면 모델학습 후 검증평가 단계에서 한다고 생각하면 되는건가요? 2) p.242(사이킷런 래퍼 XGBoost)에서 평가를 위한 데이터 세트로 테스트 데이터 세트를 사용했다고 써있습니다. 데이터 세트 분리에서 train data set + test data set로 분리되는데, train data set로 모델학습 및 검증평가(교차검증 포함)을 수행하고선 test data set로 예측 수행하고선 그 예측 결과를 평가 하는게 프로세스가 전부하고 생각하는데요. 책의 내용(p.242)을 보면서 제가 무엇을 잘못 생각하고 있는 것 같아서 질문 드립니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
konlpy 코드 문의
안녕하세요. 좋은 강의 잘 듣고 있습니다. 현재 한글 텍스트 처리 - 네이버 영화 평점 감성 분석 파트에서 가장 마지막 코드인 로지스틱 회귀분석 정확도를 구하는 부분에서 아래 사진과 같은 에러가 발생합니다. 에러 해결 방법이 궁금합니다. 감사합니다:)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
질문있습니다.
안녕하십니까 좋은강의 잘 듣고 있습니다. 항상 감사합니다 !! 현재 의문이 들어서 문의 드립니다. 대충 알고리즘들 사용방법은 알겠는데 선형대수학으로 수학적으로 값을 도출하는방법까지 공부해야하는지 궁금합니다. 머신러닝 시작한지 얼마 되지 않았는데 나중에 적응이 좀 되면 선형대수학을 해야할지 아니면 지금부터 조금씩 해야할지 궁금합니다. 감사합니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
깃허브 노트북 예제는 어떻게 다운로드 할 수 있나요?
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 깃허브 예제를 다운로드 해서 주피터노트북으로 불러오기는 어떻게 하나요? 구글링 해봐도 잘 모르겠습니다. raw 버튼을 누르고 저장하기는 하면 텍스트 파일 형태로 저장되는데요. 이 이상은 더이상 진행이 안되는 군요. ipynb 형태로 다운로드는 안되는 건가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
추천시스템 장르유사도
안녕하세요 선생님 추천시스템 부분, 교재 585페이지에 인덱스로 장르가 나와서 각 인덱스에 해당하는 다른 장르와의 유사도를 계산해보았습니다. 그런데 이렇게 많은 장르가 인덱스 숫자로 나오면 해당 인덱스 숫자가 어떤 장르인지 텍스트로 어떻게 알 수 있을까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 질문있습니다
혹시 pandas 에도 R의 mutate 같은 역할을 하는 함수가 있을까요?? 예를들어서 "age" 칼럼이 있는데 이 age 칼럼을 오름차순 정렬한 뒤에 동일한 갯수로 3 그룹을 나누고 싶은데 이때 해당하는 함수가 있는지 궁금합니다..!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
정확도, 정밀도, 재현율
강의 잘 듣고 있습니다. 제가 강의에서 배운 내용들을 바탕으로 외부 데이터 파일로 평가 모델을 수행하고 있습니다. 그런데 어디서부터 잘못됐는지 정확도, 재현율, 정밀도 세가지 모두가 0.8590으로 동일한 값이 나옵니다. 혹시나 하여 임계값을 교재에 있는것처럼 변경을 하여도 아래코드와 같이 변화가 없습니다. 무엇이 문제인지 알 수 있을까요? 임계값: 0.4 오차 행렬 [[29 3] [ 1 15]] 정확도 : 0.8590 재현율 : 0.8590 정밀도 : 0.8590 임계값: 0.45 오차 행렬 [[29 3] [ 1 15]] 정확도 : 0.8590 재현율 : 0.8590 정밀도 : 0.8590 임계값: 0.5 오차 행렬 [[30 2] [ 1 15]] 정확도 : 0.8590 재현율 : 0.8590 정밀도 : 0.8590 임계값: 0.55 오차 행렬 [[30 2] [ 1 15]] 정확도 : 0.8590 재현율 : 0.8590 정밀도 : 0.8590 임계값: 0.6 오차 행렬 [[30 2] [ 1 15]] 정확도 : 0.8590 재현율 : 0.8590 정밀도 : 0.8590 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 질문있습니다. 회귀 예측에서 새로운 테스트 데이터를 입력해서 어떻게 결과를 찾아내는 지 궁금합니다.
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요. 저는 토목전공 대학원생입니다. 선생님 강의를 통해서 머신러닝에 대해서 공부를 하고 있습니다. 먼저 비전공이기 때문에 컴퓨터 언어와 머신러닝 기법에 능숙하지 않은 점은 미리 양해를 구합니다. 현재 저는 가지고 있는 실험 데이터를 머신러닝에 접목시키는 시도를 하고 있습니다. 제가 가지고 있는 데이터는 회귀분석이 적합한 것 같아서 기초 개념부분이랑 회귀분석 파트를 주로 집중해서 공부를 했는데요, 엑셀 데이터 파일을 파이썬으로 가져와서 회귀분석하고 RMSE 값을 평가하는 것 까지는 그럭저럭 잘 따라온 것 같았습니다. 데이터의 내용을 간략하게 말씀드리면 흙의 일축압축강도를 UCS라고 하는데 UCS를 결정짓는 여러 파라미터를 가지고 UCS 값을 예측하고자 하였습니다. 그래서 UCS가 Output 이고 input 값들로는 폴리머의농도(1.0, 1.5, 2.0, ...), 초기함수비(20, 30, 60, ...) 테스트함수비(0.32, 2.33, 60.23, ...), 건조 단위중량(1,23, 1,35, ...), 흙의 종류(CL, SP, SP-SM), 실험조건(건조, 침수, 초기상태) 등 이 있습니다. 데이터 프레임을 보여드리면 아래와 같습니다. 아무튼 이렇게 해서 강의 내용을 따라 회귀 분석은 마쳤는데요 제가 궁금한건 이 분석 후에 새로운 데이터가 있을 때 그 데이터의 UCS 값을 어떻게 얻을 수 있는지, 입니다. 혹은 회귀식이나, 함수를 얻을 수 있는지, 입니다. 그리고 이 데이터가 회귀 분석을 하는 것이 적절한 걸까요..? 제가 이 분야에 지식이 많이 부족해서 계속 공부하고 검색해서 찾아보곤 있는데 혼자서 공부하는 거라 궁금한 점이 속시원히 해결이 잘 안됩니다ㅠㅠ 막무가내의 질문일 수도 있을 것 같은데,, 도움을 청할 곳이 선생님 밖에 없는 것 같습니다ㅠㅠ 어떤 챕터의 강의를 더 자세히 들어보라거나, 어떤 자료를 참고해라 정도의 답변도 좋습니다! 답변 기다리겠습니다. 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
SMOTE에서 fit_sample() 는 사용할 수 없는지요?
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. SMOTE에서 현재는 fit_sample() 는 사용할 수 없고 fit_resample() 로 실행이 가능합니다. fit_sample() 와 fit_resample() 는 어떤 차이가 있는 것인지요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
회귀 실습 -자전거 대여 수요 예측 원핫인코딩 관련질문
안녕하세요 강의 너무 잘듣고 있습니다 회귀 실습 - 자전거 대여수요 예측에서 선형 회귀의 경우 원핫 인코딩이 필수라 하셨는데 , 숫자형 값을 원핫 인코딩으로 변경하는 이유가 궁금합니다. (대략적으로 회귀계수에 숫자는 영향을 많이 주기때문이라는데 , 구체적으로 설명 부탁드립니다.) 그리고 예제에서는 원핫인코딩 적용 컬럼이 전부다 적용안하고 'year','month','day','hour','holiday','workingday','season','weather' 만 적용되는지 궁금합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
XGBoost의 label이 없는 상태에서 예측하는 방법이 궁금합니다.
안녕하세요. 강의 잘 들었습니다.^^ XGBoost관련 질의 드립니다. 주어진 데이터를 학습용 데이터, 테스트용 데이터로 추출하고, 이를 DMatrix로 변환 후, get_clf_eval 함수를 통해 예측평가까지 완료하였습니다. 만약 새로운 데이터가 주어졌으나, 새로운 데이터는 y_test, 즉 결과값이 없는 데이터이며, 이를 예측해야하는 상황이라면 어떻게 해야 하나요? predict함수 인자인 dtest의 label이 없는 상태에서 예측하는 방법 안내 부탁드립니다. dtest = xgb.DMatrix(data=X_test , label=y_test) xgb_model = xgb.train(params = params , dtrain=dtrain , num_boost_round=num_rounds , evals=wlist ) pred_probs = xgb_model.predict(dtest)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 질문있습니다.
항상 좋은 강의 잘듣고 있습니다 :) 이상치 제거하고 검증용 세트로 모델 검증하는 과정에서 갑자기 궁금한게 생겨서 질문드립니다..! 이상치 제거한 모델을 실제 test 셋으로 평가 할때 행 수가 맞지 않잖아요..? 그럼 모델 평가가 안되는데 이경우에는 실제 test 세트에서도 인덱스를 제거하고 모델 평가를 하나요?? 만약 그렇다면 그 기준은 어떻게 되나요??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 fit_transform 질문드립니다.
다항회귀 실습 중인데 1) poly = PolynomialFeatures(degree = 3).fit_transform(X) --> 이렇게 실행하면 오류안뜸 2) ploy = PolynomialFeatures(degree = 3) poly.fit_transform(X) --> Expected 2D array, got scalar array instead 오류발생 # LinearRegression 으로 회귀계수 예측 model = LinearRegression() model.fit(poly, y) 위에 적었다시피 poly.fit_transform 변환이후 model.fit 하면 오류가 안뜨는데 2)번 같은 경우 오류가 뜨네요..! 원래 fit_transform 한꺼번에 수행하는거랑 나눠서 수행하는 경우 차원 변화가 일어나나요? + 추가 질문 사이킷런 Pipeline 으로 모델성능 실습하다가 질문드립니다 model = Pipeline([("ploy", PolynomialFeatures(degree = 3)), ("linear", LinearRegression())]) X = np.arange(4).reshape(2,2) y = polynomial_func(X) model = model.fit(X,y) 여기서 질문은 ("ploy", PolynomialFeatures(degree = 3) 에서 따로 transform 을 안해줘도 Pipeline 에서 자동으로 변환 해주나요?? ------------------------------- + 추가 질문입니다 (실습하다 보니 질문이 늘어나네요.. ㅠㅠ) boston 주택가격 예측 실습할때 1) lr.fit(X_train, y_train) 식으로 train_test_split 로 데이터를 나눠서 모델 학습하는경우가 있고 2) rt_regressor.fit(feature, label) 이런식으로 모든피처와 label 을 학습하는 경우가 있는데 위 둘의 차이가 무엇인가요?? 제가 생각하기로는 2)번 같은경우는 회귀계수를 구하기 위해 전체 데이터를 학습했다고 해석했는데 이러면 coeff_ 메서드 같은 경우도 전체 데이터를 학습한 회귀계수라 해석해도 되나요?? ++ 항상 좋은강의 감사드립니다 :)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
부스팅계열도 gridsearch가 가능한가요?
랜덤포레스트 외에도 부스팅 계열도 그리드서치가 가능한가요? Optuna라는 것도 있는 것 같네요
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
안녕하세요 label encoding 질문드립니다
레이블 인코딩 설명 중에 숫자 끼리의 크기가 영향을 줄 수도 있어서 모델링 시 원하는 결과가 나오지 않을 수 있어 이를 해결하고자 원 핫 인코딩을 사용한다고 햇는데 타이타닉 예제에서는 그대로 사용해도 영향을 안받는건가요? 아니면 원핫인코딩시 생성되는 변수가 너무 많아져서 그런건가요? 궁금합니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
train.tsv
9:56에 zip파일을 열면 train.tsv zip파일이 있는데 제가 방금 kaggle에서 데이터셋을 전체 다운 받았을 때는 train.tsv가 보이지 않습니다. 제가 다운로드 파일을 열었을 때 보이는 파일은 아래와 같습니다. 혹시 kaggle 데이터에 변경이 있어서 그런 것일까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
회귀 규제에서 alpha값 범위
선생님께서 알려주시는 내용으로 열심히 공부하고 있습니다!! 라쏘와 릿지의 alpha값을 튜닝하는데 책에 있는 예시들이 릿지값들이 더 크게 설정이 되어 있고, 랏쏘는 작은 값들로 세팅이 되거든요. 혹시 이유가 있는건가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
회귀에서 규제(L1, L2)에 따른 회귀계수의 변화가 궁금합니다.
310페이지에서 보면 NOX의 회귀계수가 -19.8로 나옵니다. 즉, 집값과 NOX가 반대의 영향을 크게 미치는 것처럼 보였는데요. 308페이지의 그래프를 보아도 음의 관계를 갖는거 처럼 나왔습니다. 이렇게 중요해보였던 피쳐가 L1이 적용되면서 0으로 (없어도 되는 피쳐) 되어 버린게 이해가 잘 되지 않습니다. 피쳐의 중요도가 규제에 따라 달라지는건가요? 아니면, 310페이지는 학습이 잘 못되었다고 봐야 하는건가요?