• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

트리계열 파라미터 max_features 작동 방식

23.04.20 14:29 작성 조회수 181

0

여러 트리 계열 파라미터 중 max_features는 최적의 분할을 고려하여 피처의 개수를 선정한다고 했습니다. 이것의 작동 방식이 궁금합니다.

피처의 개수를 선정한다고 했는데, 전체 피처 중 트리계열 학습기를 적용하기 전, 일부만 추출(일부 피쳐 선택)을 하고 적용하는 것인가요?

(예시로, max_features= 'sqrt', iris데이터 피처의 개수: 120라고 가정하면,

아이리스 데이터 120개중 랜덤으로 루트120개를 뽑고, 뽑힌 피처들로 알고리즘을 수행) 하는 것인가요?

실제로 Graphviz모듈로 max_features='sqrt'로 실행해보니, 첫번째 노드의 samples 데이터가 120개로 원본 데이터와 같아서 질문드립니다. 제가 잘못 이해한 부분이 어디 일까요..

답변 1

답변을 작성해보세요.

0

max_features는 학습용 feature의 갯수를 조절하는 것입니다. iris 데이터 세트는 feature가 4개이고, 데이터의 건수가 120개 입니다. feature가 120개가 아닙니다. max_features= 'sqrt' 라면 2개의 feature가 선택됩니다.

감사합니다.