scaler와 countervectorizer 를 서비스에 적용할 때는 어떻게 해야 하나요?

Question

선생님, 수업 잘 듣고 있습니다.  책을 보면, CounterVectorizer()나 StandardScaler, MinMaxScaler 사용을 하면, 학습/테스트 데이터 적용시 동일한 object를 사용해야 한다고 적혀져 있는데요. 만약, 학습을 다 완료하고 해당 모델로 서비스에 적용하려고 해도 동일한 object를 사용해야 하는 것인가요? 그럼, 대체적으로 어떻게 관리해서 사용하게 되는지 궁금합니다^^  특히나, 텍스트분석의 경우는 학습시 사용되지 않았던 단어들이 서비스시에 나올 수 도 있을거 같거든요. 신조어같은게 계속 늘어나니까요.... 이런경우도 어떻게 처리하는지 궁금합니다~  감사합니다^^

Answer

안녕하십니까,

테스트 데이터에 CountVectorizer나 scaler등을 적용할 때는 반드시 학습 데이터에 적용한 기준으로 테스트 데이터를 변경해야 합니다.

즉 아래와 같이 테스트 데이터를 변경해야 하며, 반드시 학습 데이터로 fit() 한 scaler 객체를 사용해야 합니다.

train_scaler = MinMaxScaler()

train_scaler.fit(학습 데이터)

train_scaled_data = train_scaler.transform(학습데이터)

# 테스트 데이터는 학습 데이터로 fit된 scaler를 적용해야 함. 실시간으로 테스트 데이터를 scaling할 때도 반드시 train_scaler 객체를 이용해서 변환해야 함.

test_scaled_data = train_scaler.transform(테스트 데이터)

scaling도 마찬가지 이지만 텍스트 분석의 경우 학습 데이터에 없는 문자열은 학습데이터 기반의 CountVectorizer에서 자동으로 제외 됩니다. 때문에 주기적으로 추가된 데이터를 기반으로 CountVectorizer를 재생성해야 합니다.

가물치

scaler와 countervectorizer 를 서비스에 적용할 때는 어떻게 해야 하나요?

이 글과 비슷한 Q&A

동영상 강의와 똑같은 수식을 적은것 같은데 오류가 납니다.

동영상을 보면서 실습은 못하는건가요?

회귀 rmse

에러메세지와 마주하기 에러 4번