파이썬 머신러닝 완벽 가이드
파이썬 머신러닝 완벽 가이드
수강정보
(57개의 수강평)
1535명의 수강생
5개월 할부시
월 19,800원99,000원
지식공유자 : 권 철민
123회 수업 · 총 26시간 29분 수업
기간 : 평생 무제한 시청
수료증 : 발급 강의
수강 난이도 : 초급, 중급이상
nealzs 프로필

Decision Tree parameter 관련 nealzs 1일 전
꼭 Decision Tree 기법 말고도 다른 머신러닝 기법들을 사용할때 max depth 나 min samples split 과 같은 parameter들은 분석자의 경험에 의해서 정하는 것인가요? 강의에서의 예제와 같이 max depth들을 예를들어 6,8,10,12,14 등으로 할때 위 6,810,12,14 과 같은 파라미터들은 어떤 기준으로 해당 수치를 정하는 것인가요?

1
밍블리 프로필

후속 질문2 드립니다! 밍블리 1일 전
train, test 데이터셋을 나눌 때 stratify=y_df 옵션을 넣어줬더니 0.85 에서 정확도가 확연히 상승되었습니다! 1. 이 경우 train데이터와 test데이터의 타겟값의 비율이 이전에는 상당히 왜곡되어 있었기 때문에 정확도가 낮았던걸로 이해하면 될까요? 2. 주어진 전체 데이터의 타겟 비율은 A, B, C로 쳤을 때 각각 60%, 30%, 10%(대략적인 값입니다) 정도 됩니다. 여기서 정확도를 더 높이기 위해 필요한 작업이 있을까요? 3. LGBM을 사용할 때 제가 위에 써놨다시피 n_estimators 를 높일수록 정확도가 높아지는데, 여기서 궁금한 점이 early stopping(=100 정도일때)으로 멈추는 시점까지는 n_estimators 를 높여도 되는걸까요? 위의 경우 7245에서 early stopping이 되어서 더이상 n_estimators를 높이지 않았습니다. 이 경우 과적합의 우려가 있는지 궁금합니다. 4. 책과 강의에서는 learning_rate를 낮출수록 정확도가 높아진다고 하셨는데 제가 실습해본 결과 0.1에서 0.01로 낮추면 정확도가 현격히 떨어지는 것을 보았습니다 ㅠㅠ 제가 잘못 이해한걸까요?

1
비전공자 프로필

분류의 큰 그림에 대해 질문합니다. 비전공자 1일 전
안녕하세요. 현재 LightGBM 파트를 공부하고 있습니다. 분류의 큰 그림이 이해가 잘 안되는데요. 분류에는 나이브 베이즈, 로지스틱 회귀, 결정트리, SVM, KNN, 신경망, 앙상블 이런 알고리즘이 있고 그 중에 하나인 앙상블 알고리즘은 보팅, 배깅, 부스팅, 스태킹으로 나뉘며 보팅에는 보팅분류기, 배깅에는 랜덤 포레스트, 부스팅에는 GBM, XGBoost, LightGBM이 있다. 그리고 보팅, 배깅, 부스팅중에서 부스팅이 가장 발전된 형태이며  부스팅은 GBM -> XGBoost -> LightGBM으로 발전되어 왔고 따라서 가장 최신화된 방법은 LightGBM이므로 GBM, XGBoost는 이제 잘 사용하지 않고 LightGBM 주로 사용한다. 이렇게 이해하면 될까요?

3
yeop6134 프로필

273쪽 아래 코드 네번째줄 질문입니다. yeop6134 2일 전
해당 줄에 df['Class']==1이라고 나와있는데 클래스값을  지정하지 않으면 더 좋은 성능을 얻을 수 있나요?

2
밍블리 프로필

후속 질문 드립니다! 밍블리 2일 전
이전 질문 답변 감사드립니다. 많은 도움 되었습니다! 전처리를 하지 않은(id 컬럼 drop만 해줬습니다) 동일한 데이터셋에 대해 GBM < XGBoost < LightGBM < 결정트리(단일) < 랜덤포레스트 순서로 정확도가 산출됐고, 기본적으로 랜덤포레스트와 부스팅 알고리즘들 간의 정확도 차이가 10~20% 정도 났습니다. 이는 랜덤포레스트가 본 데이터셋에 적합한 알고리즘이라는 의미인가요? 아니면 데이터 전처리를 통해 얼마든지 극복될 수 있는 정확도 차이인가요?

1
밍블리 프로필

GridSearchCV 와 관련하여 질문드립니다! 밍블리 2일 전
1. 제가 실습해보려는 데이터셋이 40만 row 인데, 이 경우 cv 값을 몇으로 설정하는게 가장 좋은가요? 피쳐는 30개입니다. 2. 최적의 cv 값이 존재하나요? (가령 각 폴드 당 최적의 데이터 수가 존재한다든가...) 혹은 폴드 당 데이터 수가 많을수록 더 좋은건가요? 이 부분이 의문입니다 ㅠㅠ 3. 아래에서 max_depth를 6~24까지 줬을 때 24가 최적 파라미터로 결과가 나와서 혹시나 하는 마음에 24~32까지 줘봤더니 32가 최적 파라미터로 나왔습니다. 원래 이렇게 max_depth 최적값이 크게 나올 수도 있는 건가요? 아니면 다른 문제가 있는 걸까요? 문제가 없다면 40 넘게 max_depth를 더 키워봐도 되는걸까요? 과적합이 발생하고 있는게 아닌지 걱정됩니다 ㅠㅠ 4. 분류의 다양한 알고리즘을 한 예제에 모두 사용해봤는데, 정확도가 엄청 상이했습니다. 만약 전처리를 하지 않은 raw 데이터셋으로 모두 동일하게 fit 했을 때 정확도가 10~20% 가량 차이가난다면, 정확도가 비교적 지나치게 낮은 알고리즘보다는 높은 알고리즘을 기준으로 튜닝하는게 맞는건가요? 아니면 전처리가 더 중요하기 때문에 전처리 이후 다시 다양한 알고리즘을 적용해보는게 우선시되는건가요? 5. 2진 분류가 아닌 레이블이 3개인 분류(다중 클래스 분류)를 할때는 어떤 검증 방법을 써야 하나요? 6. 5번과 비슷한 질문인데 다중 클래스 분류를 할 경우에는 부스팅 방법이 적합하지 않은 것인가요? 랜덤 포레스트를 제외한 모든 부스팅 알고리즘 정확도가 엄청 낮게 나옵니다ㅠㅠ (혹은 제가 원핫인코딩 방식을 사용하지 않은게 잘못일까요?? 현재 클래스가 연속성이 없는 0, 1, 2로 나뉘고 있습니다)

1
jin03114 프로필

안녕하세요 jin03114 3일 전
안녕하세요 선생님 강의 잘 보고 있습니다. 다름이 아니고 "평가 3.6장, 피마 인디언 당뇨병 예측"을 공부 하고 있습니다. 여기서 Glucose, BloodPressure, SkinThickness...등 0으로 기록된 값이 있어서 책에서는 이것들을 평균으로 바꿔서 모델의 예측 성능을 높히셨는데 저는 좀 더 나아가보고자 저 값들을 그냥 평균으로 바꾸지 않고 해당 나이대에 비슷한 평균값으로 바꾸고 싶어서 나름 이리저리 코드를 굴려봤는데 잘 안되서 도움 요청을 드리고 싶습니다. 1. 나이는 실수값이라서 lamba 식을 이용해서 "Age_cat"를 따로 만들었습니다. 2. 만약 index=4의 사람의 insulin이 0이면 "그 해당 사람의 나이대에 맞는 값의 평균"으로 바꾸고자 하는 코딩이 for feature in zero_feature....부분 부터입니다. 한번에 적용하는 방법을 모르겠어서 이중 for문으로 구현해봤는데 어디가 오류인지 잘 모르겠네요. 3. 혹시 제가 구현하려는 방식보다 더 쉽고 간편한 방식이 있으시면 알려주시면 감사하겠습니다 ㅠㅠ 질문이 길어서 죄송합니다

5
박성호 프로필

alpha값에 대한 rmse 결과가 다릅니다. 박성호 4일 전
선생님처럼 학습시에 feature와 label 전체를 넣어주면 alpha값에 따른 rmse값이 선생님의 결과값과 비슷하게 나오는데 train_test_split을 해서 나온 x_train, y_train으로 fit을 하면 항상 alpha값이 작을수록 rmse가 작게 나옵니다. random_state도 다르게 줘 보고 test_size도 0.000001로 적게 해서 feature 전체, label 전체와 비슷한 데이터를 가지도록 하기도 해 봤지만  split을 하기만 하면 무조건 alpha값이 작아야만 rmse가 적게 나오네요 그리고 그렇게 나온 값도 그냥 LinearRegression 돌렸을 때 보다 rmse값이 대부분 더 큽니다. 왜 그럴까요..?

1
윤우섭 프로필

cv=3 윤우섭 5일 전
혹시 cv=3은 교차검증을 3번한단 뜻인거같은데 동일한 트레인셋과 검증셋을 기반으로 3번반복하는 건지 아니면 검증셋이 3개로 나뉜다는 것인지 뜻이 궁금합니다! 그리고 혹시 선생님강의하실때 주피터에서 안에있는 api들 파라미터들을 자동으로 뜨게해서 알려주는 그런 기능은 어디서 활성화 시키면 될까요 혹시 말로 설명이 어려우시다면 네이버에 뭐라고 치면 될까요

1
Hyoeun Yun 프로필

fillna() 질문 Hyoeun Yun 7일 전
안녕하세요. fillna() 으로 null값 처리할 때 단순한 의문이 생겨서 질문드립니다. fillna에서 inplace=True 하면 기본 데이터세트가 업데이트되는 것은 이해하였는데요! 아래그림처럼 기존의 ['Age'] 컬럼에 fillna를 적용한 식을 넣어준다는 식으로 표현하면 그 다음에 ['Age'] 컬럼을 확인해보면 none값으로 나오네요.. 무슨 차이가 있나요??

1
jin03114 프로필

정규화, 표준화 질문드립니다. jin03114 7일 전
데이터 전처리를 할 시에 정규화와 표준화가 중요하다고 하셨는데 언제 정규화를 하고 표준화를 하는지 잘 모르겠습니다. 강의에서 가우시안 분포로 바꿔야할때 정규화를 하신다고 하셨는데 원래 가우시안 분포를 따르지 않는 데이터를 표준화 해도 되는 것인가요? 원래 가우시안 분포를 따르지 않는다면 정규화를 적용해야 하는 거 같은데...  정확히 언제 표준화를 쓰고 언제 정규화를 쓰는지 잘 감이 안오네요!

1
kh9342 프로필

강의 slide 공유 kh9342 7일 전
강의 slide를 보며 공부하려는데 공유받을 수 있는지 질문드립니다

1
scy6500 프로필

안녕하세요 scy6500 7일 전
안녕하세요 선생님. 강의를 듣다가 궁금한 점이 생겨서 질문을 남기게 되었습니다. 사이킷런에서 제공하는 스케일링 방법에는 standard, robust, minmax, maxabs가 있는 걸로 알고있습니다. 제가 지금 하고싶은게 데이터 칼럼별로 분포를 뽑아서 분포에 맞는 스케일링을 적용하고 싶은데 어떤 분포는 이 스케일링 방법을 사용하는 것이 효과적이다 이런 정보를 얻을 수 있을까 하여 질문을 드립니다. 칼럼별로 각각 스케일링 방법을 적용하여 가장 효과가 좋은 스케일링 방법을 찾는거 밖에는 방법이 없을까요? 답변해주시면 감사하겠습니다!

1
tlsxkq3vmfh 프로필

책 개정판 계획이 있으신지 궁금합니다 tlsxkq3vmfh 7일 전
안녕하세요 선생님 이번에 올라온 신규 강의와 관련해서  책 개정판이 나오는지 궁금합니다~

1
byun618 프로필

안녕하세요 강사님 byun618 8일 전
강의 잘 듣고 있습니다. 감사드립니다. 다름이 아니라 제가 이 강의를 학교 지원으로 듣고 있는데, 강의를 다 듣고 나서 제가 이 강의를 들었다는 증명을 할 수 있어야 한다고 합니다. 예를들어 수료증과 같은 자료입니다. 혹시 그런게 있나요?

2
지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강의들을
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스