inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

BaseEstimator 질문드립니다 !

799

co choi

작성한 질문수 37

1

선생님 MyDummyClassifier 에서 BaseEstimator의 역할이 궁금합니다.. 아무리 검색해도 잘모르겠네요 ㅠ

그리고 fit 메서드는 아무것도 학습을 하지 않는데 굳이 학습/검증 세트로 나눈다음 fit(X_train, y_train) 을 수행한 이유도 잘모르겠습니다 ㅠㅠ

머신러닝 배워볼래요? 통계 python

답변 1

5

권 철민

안녕하십니까, 

MyDummyClassifier는 사이킷런의 Classifier 구현을 흉내낸것 입니다. 

사이킷런 프레임웍은 분류를 위한 수행 객체로 Classifier를 가집니다. 가령 DecisionTreeClassifier, RandomForestClassifier등 다양한 분류 알고리즘을 구현한 Classifier를 제공합니다. 보통은 이들 Classifier객체들은 Regressor 객체와 함께 Estimator라고 불립니다. 

이들 Estimator는 사이킷런 프레임웍에서 GridSearchCV, cross_val_score() 등 다양한 Utility class들과 함께 자연스럽게 결합될 수 있는데, 이걸 적용하려면 모든 Estimator들은 BaseEstimator라는 것을 상속 받아야 합니다.  그래서 MyDummyClassifier에서 BaseEstimator를 상속 받았습니다. 

물론 이렇게 BaseEstimator를 상속받지 않고, fit(), predict()를 구현할 수도 있습니다만, 사이킷런 프레임웍의 다른 Estimator 동작방식과 유사한 설명을 드리기 위해서 그렇게 구현한 것입니다. 

그리고 fit() 메서드는 적어주신대로 아무것도 학습하지 않습니다. 그런데 정확도(Accuracy)의 경우는 아무것도 학습하지 않은 상태임에도 좋은 예측 수치를 보여 줄수가 있습니다. 즉 그냥 찍어도 꽤 놓은 수치가 나올수 있는 경우가 바로 정확도 이기 때문에 정확도 수치에는 맹점이 있을 수 있습니다. 

이를 설명 드리기 위해,  Machine Learning의 일반적인 학습 프로세스, 가령 예를 들어 학습과 검증 세트로 나눈 다음에 fit(X_train, y_train)으로 아무것도 아닌 학습을 하고,  predict() 예측을 했을 때, 그렇게 나오면 안됨에도 불구하고 정확도 수치가 높게 나올 수 있는 경우를 보여 드리기 위해서 만든 것입니다. 

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

52

2

안녕하세요 열심히 수강중인 학생입니다

0

90

2

정수 인덱싱

0

86

2

넘파이 오류

0

109

2

11강 numpy의 axis 축 질문 드립니다.

0

107

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

94

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

77

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

83

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

73

2

5강 강의 오류가 있어요.

0

90

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

81

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

76

3

파이썬 다운그레이 후 사이킷런 재설치

0

129

2

좋은 강의 감사합니다.

0

80

2

scoring 함수 음수값

0

72

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

108

2

분류 평가 정확도 예측

0

87

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

114

1

카카오톡 채널 있나요

0

118

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

193

2

pca 스케일링 관련하여 질문드립니다.

0

109

2

주피터 대신 구글 코랩

0

184

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

156

2

실루엣 스코어..

0

91

2