GridSearchCV 함수 질문있습니다.
362
작성한 질문수 1
안녕하세요 선생님. 머신러닝에 관심이 있어, 강의를 통해 배우고있습니다.
다름이 아니라 GridSearchCV를 활용할때 param_grid 인자값을 설정하는데, max_depth와 min_samples_split 등의 값은 어떻게 정하는건가요? 타이타닉 예측 강의에서 [2,5,8]등의 값을 설정하는데, 반복 방식은 이해 했지만, 그 값이 무슨값인지는 아직 이해를 못했네요 ㅠㅠ
그리고 외람된 질문이지만, 머신러닝에서 sklearn 모듈외에 statsmodel도 사용되는데, 둘중 어떠한 모듈이 더 많이 활용되는지 알수있나요...?
수고많으십니다!
답변 1
0
안녕하십니까,
타이타닉에서는 GridSearchCV의 사용법을 우선으로 익히기 위해서 max_depth, min_samples_split이 어떤 파라미터인지는 상세하기 말씀드리지 않았습니다. 해당 하이퍼 파라미터에 대한 상세 설명은 4장 분류에서 결정 트리의 하이퍼 파라미터 영상에서 상세하게 말씀드립니다.
미리 대략적으로 말씀 드리면 max_depth는 결정 트리 구조를 만드는 노드의 최대 깊이를 지정하는 것입니다. min_samples_split는 노드를 분할 하기 위해서 해당 기준에 적합한 데이터가 적어도 몇개 이상의 존재해야 하는가를 나타냅니다. 좀 더 상세히 알고 싶으시면 미리 4장을 학습하셔도 무방합니다.
일반적으로 파이썬에서는 머신러닝 패키지로 scikit learn을 사용합니다. scikit learn은 많은 머신러닝 알고리즘이 구현 되어 있습니다. 반면에 statsmodel은 주로 통계용 package에 집중합니다.
stasmodel을 크게 나누면, 통계 모듈, 회귀 모듈, 그리고 Timeseries 모듈로 나뉠 수가 있습니다.
때문에 머신러닝에서는 주로 scikit learn을 이용하지만, statsmodel 역시 회귀 모듈이 있기 때문에 선형 회귀의 경우 statsmodel을 이용해도 무방합니다. 하지만 statsmodel은 트리기반 Decision Tree, RandomForest, GradientBoosting, SVM등의 다양한 머신러닝 모듈을 제공하지 않습니다.
감사합니다.
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
51
2
안녕하세요 열심히 수강중인 학생입니다
0
87
2
정수 인덱싱
0
86
2
넘파이 오류
0
109
2
11강 numpy의 axis 축 질문 드립니다.
0
107
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
94
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
77
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
83
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
73
2
5강 강의 오류가 있어요.
0
90
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
81
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
75
3
파이썬 다운그레이 후 사이킷런 재설치
0
129
2
좋은 강의 감사합니다.
0
80
2
scoring 함수 음수값
0
72
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
108
2
분류 평가 정확도 예측
0
87
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
114
1
카카오톡 채널 있나요
0
118
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
193
2
pca 스케일링 관련하여 질문드립니다.
0
109
2
주피터 대신 구글 코랩
0
184
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
156
2
실루엣 스코어..
0
91
2





