GridSearchCV 함수 질문있습니다.

Question

안녕하세요 선생님. 머신러닝에 관심이 있어, 강의를 통해 배우고있습니다. 다름이 아니라 GridSearchCV를 활용할때 param_grid 인자값을 설정하는데, max_depth와 min_samples_split 등의 값은 어떻게 정하는건가요? 타이타닉 예측 강의에서 [2,5,8]등의 값을 설정하는데, 반복 방식은 이해 했지만, 그 값이 무슨값인지는 아직 이해를 못했네요 ㅠㅠ 그리고 외람된 질문이지만, 머신러닝에서 sklearn 모듈외에 statsmodel도 사용되는데, 둘중 어떠한 모듈이 더 많이 활용되는지 알수있나요...? 수고많으십니다!

권 철민 · Answer

안녕하십니까, 타이타닉에서는 GridSearchCV의 사용법을 우선으로 익히기 위해서 max_depth, min_samples_split이 어떤 파라미터인지는 상세하기 말씀드리지 않았습니다. 해당 하이퍼 파라미터에 대한 상세 설명은 4장 분류에서 결정 트리의 하이퍼 파라미터 영상에서 상세하게 말씀드립니다. 미리 대략적으로 말씀 드리면 max_depth는 결정 트리 구조를 만드는 노드의 최대 깊이를 지정하는 것입니다. min_samples_split는 노드를 분할 하기 위해서 해당 기준에 적합한 데이터가 적어도 몇개 이상의 존재해야 하는가를 나타냅니다. 좀 더 상세히 알고 싶으시면 미리 4장을 학습하셔도 무방합니다. 일반적으로 파이썬에서는 머신러닝 패키지로 scikit learn을 사용합니다. scikit learn은 많은 머신러닝 알고리즘이 구현 되어 있습니다. 반면에 statsmodel은 주로 통계용 package에 집중합니다. stasmodel을 크게 나누면, 통계 모듈, 회귀 모듈, 그리고 Timeseries 모듈로 나뉠 수가 있습니다. 때문에 머신러닝에서는 주로 scikit learn을 이용하지만, statsmodel 역시 회귀 모듈이 있기 때문에 선형 회귀의 경우 statsmodel을 이용해도 무방합니다. 하지만 statsmodel은 트리기반 Decision Tree, RandomForest, GradientBoosting, SVM등의 다양한 머신러닝 모듈을 제공하지 않습니다. 감사합니다.