inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

모델 선택의 기준

1082

tmdqkr0930

작성한 질문수 4

0

선생님 안녕하세요. 즐겁게 머신러닝에 대해서 공부를 하고 있습니다. 

다양한 데이터를 가지고 적용하고 있는데요, 모델을 선택하는 과정에서 그 이유를 제대로 설명을 못하는 어려움을 개인적으로 느끼고 있습니다.

예를 들어, 축구 경기 결과의 데이터를 가지고 승패예측을 하는 예측모델을 만든다고 가정할 때, xgboost, logistic회귀를 사용하여 모델을 만들었다고 가정했을 때, 왜 그 모델들을 사용했냐는 질문에 어떻게 답을 해야될지 모르겠습니다.

정리하면, "분류를 하는 문제에서는 이런이런 상황에서는 ~~~ 모델을 사용해야지 적합하다"라는 내용을 공부하기 위해서는 어떠한 레퍼런스 또는 자료를 공부해야 하나요?

머신러닝 배워볼래요? python 통계

답변 1

3

권 철민

안녕하십니까,

모델을 선택한다는 것은 xgboost, logistic regression과 같은 알고리즘만을 선택한다는 것은 아닙니다. 모델은 Feature engineering과 같은 다양한 데이터 처리방식과 알고리즘이 결합된 것입니다.

모델을 만들때 어떤 알고리즘이 어떤 상황에 적용되느냐의 기준이 없습니다. 다양한 알고리즘을 적용해서 그 중에 좋은 알고리즘을 선택하면 됩니다. 다만 알고리즘 성능은 조금 떨어지더라도 학습 시간이 대폭 줄어든다거나, 데이터 전처리에 많은 시간과 노력이 필요하지 않은 알고리즘을 선택하는 취사 선택 정도의 기준이 있습니다.

일반적으로 어떤 상황에서 어떤 알고리즘이 좋더라는 것은 정해진 바는 없지만, 워낙 분류에서는 Ensemble 기반의 알고리즘이 대세입니다. 하지만 Sparse한 Text 분류에서는 Xgboost 보다 Logistic Regression이 더 나을때도 있습니다. 확실한 것은 알고리즘을 적용해 봐야 합니다.

회귀에서는 회귀 트리보다 Ridge, Lasso등의 선형 회귀도 더 좋은 경우도 있지만, 피처들이 많다거나 할 경우 Xgboost나 lightgbm 기반의 회귀 트리가 더 좋은 경우도 있습니다.

결론적으로 어떤 알고리즘이 어떤 상황에서 더 좋다는 정해진 게 없습니다. 적용해 봐야 아는 것입니다. 다만 어느 정도 특정 알고리즘이 뛰어난 성능을 발휘하는 경우를 경험적으로 인지하고 이를 먼저 적용해 보면서 최적 모델을 찾습니다. 예를 들어 분류에서 Xgboost나 LightGBM을 먼저 적용해서 어느 정도 성능이 나오는 지 판단한 뒤에 혹 다른 알고리즘도 더 좋은 성능이 되는지 확인하는 것입니다. 흔하지는 않지만 분류에서 이 2개 알고리즘 보다 더 좋게 나오는 경우도 있습니다. 또한 여러개의 모델을 다시 Ensemble 한다거나 Stacking 하는 다양한 방법을 시도해서 좋으면 선택하는 것입니다(물론 무조건 좋다고 선택하는 것이 아니라 앞에서 말씀드린 학습의 시간이나 데이터 전처리의 어려움도 감안되어야 합니다)

감사합니다.

안녕하세요 열심히 수강중인 학생입니다

0

63

2

정수 인덱싱

0

68

2

넘파이 오류

0

85

2

11강 numpy의 axis 축 질문 드립니다.

0

85

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

79

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

70

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

64

2

5강 강의 오류가 있어요.

0

84

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

72

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

69

3

파이썬 다운그레이 후 사이킷런 재설치

0

117

2

좋은 강의 감사합니다.

0

72

2

scoring 함수 음수값

0

67

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

100

2

분류 평가 정확도 예측

0

77

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

99

1

카카오톡 채널 있나요

0

107

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

189

2

pca 스케일링 관련하여 질문드립니다.

0

100

2

주피터 대신 구글 코랩

0

172

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

148

2

실루엣 스코어..

0

86

2

float64 null 값 처리 방법

0

103

2