inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

후속 질문 드립니다!

해결된 질문

275

밍블리

작성한 질문수 6

0

이전 질문 답변 감사드립니다. 많은 도움 되었습니다!

전처리를 하지 않은(id 컬럼 drop만 해줬습니다) 동일한 데이터셋에 대해

GBM < XGBoost < LightGBM < 결정트리(단일) < 랜덤포레스트

순서로 정확도가 산출됐고, 기본적으로 랜덤포레스트와 부스팅 알고리즘들 간의 정확도 차이가 10~20% 정도 났습니다.

이는 랜덤포레스트가 본 데이터셋에 적합한 알고리즘이라는 의미인가요?

아니면 데이터 전처리를 통해 얼마든지 극복될 수 있는 정확도 차이인가요?

머신러닝 배워볼래요? python 통계

답변 1

0

권 철민

 랜덤 포레스트가 크게 압도하는 군요. 보통은 이렇게 큰 차이가 나지는 않습니다만 특이한 경우군요.

아래와 같은 사항 확인이 필요합니다.

1. Test 데이터 세트에 대한 재 확인이 필요합니다.  Test 데이터 크기가 학습 데이터 대비 얼마나 되는지 확인 부탁드립니다. cv=3 으로 해서 cross_val_score로 했을때의 성능 비교를 해보십시요.  또한 Test 데이터 세트를 변경해서도 다시 한번 테스트 부탁드립니다.

2.  다중 분류라고 하셨는데, 개별 target 값들이 skew 되지 않았는지 다시 확인 부탁드립니다(가령 타겟값이 A, B, C일때 A가 80%, B,C가 각각 10% 인지). 그리고 Train데이타와 Test 데이터의 타겟값의 비율이 어떻게 되는지도 확인 부탁드립니다(예를 들어 Train데이터의 타겟값(A, B,C라 할때) 비율이 30, 30, 40% 인데 Test 데이터의 타겟값 비율도 이와 동일한지)

3. 데이터가 40만건이 넘는데도 DecisionTree보다 XGBoost와 LightGBM의 성능이 떨어지는 경우는 흔하지 않습니다. XGBoost와 LightGBM의 하이퍼 파라미터를 좀 더 개선할 필요가 있을 것 같습니다(하지만 랜덤포레스트도 크게 하이퍼 파라미터를 변경하지 않았는데도 큰 성능을 보이는 걸로 봐서는 일단 랜덤 포레스트가 뛰어난 걸로 보입니다).

4. 실제로 랜덤 포레스트가 해당 데이터 세트에 최적화된 알고리즘 일 수 있습니다. 하지만 10% 이상 차이나는 경우는 저도 경험해 보지 못했습니다(물론 하이퍼 파라미터 튜닝을 한다면 차이는 줄어들수는 있습니다만, 저는 한 3~4% 정도 랜덤 포레스트가 우위를 나타낸 모델 경험은 있었습니다)

위 언급된 사항 다시 확인 후 업데이트 부탁드립니다.

안녕하세요 열심히 수강중인 학생입니다

0

61

2

정수 인덱싱

0

68

2

넘파이 오류

0

85

2

11강 numpy의 axis 축 질문 드립니다.

0

85

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

79

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

70

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

64

2

5강 강의 오류가 있어요.

0

84

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

72

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

69

3

파이썬 다운그레이 후 사이킷런 재설치

0

117

2

좋은 강의 감사합니다.

0

72

2

scoring 함수 음수값

0

67

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

100

2

분류 평가 정확도 예측

0

76

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

98

1

카카오톡 채널 있나요

0

107

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

189

2

pca 스케일링 관련하여 질문드립니다.

0

100

2

주피터 대신 구글 코랩

0

172

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

147

2

실루엣 스코어..

0

85

2

float64 null 값 처리 방법

0

102

2