如何在python中使用保存模型进行预测

我正在python中进行文本分类，我想在生产环境中使用它来预测新文档。我正在使用TfidfVectorizer来构建bagofWord。

我正在做：

X_train = vectorizer.fit_transform(clean_documents_for_train, classLabel).toarray()

然后我进行交叉验证，并使用SVM构建模型。之后我将保存模型。

为了对我的测试数据进行预测，我正在另一个脚本中加载该模型，其中我有相同的TfidfVectorizer，我知道我不能对测试数据进行fit_transform。我必须做：

X_test = vectorizer.transform(clean_test_documents, classLabel).toarray()

但这是不可能的，因为我必须先适应。我知道有办法。我可以加载训练数据并执行fit_transform，就像我在构建模型时所做的那样，但我的训练数据非常大，每次我想预测时我都做不到。所以我的问题是：

有没有一种方法可以在我的测试数据上使用TfidfVectorizer并执行预测
还有其他方法可以进行预测吗

矢量器是模型的一部分。保存训练后的SVM模型时，还需要保存相应的矢量器。

为了更方便，可以使用Pipeline构建一个"可拟合"对象，该对象表示将原始输入转换为预测输出所需的步骤。在这种情况下，管道由Tf-Idf提取器和SVM分类器组成：

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import svm
from sklearn.pipeline import Pipeline
vectorizer = TfidfVectorizer()
clf = svm.SVC()
tfidf_svm = Pipeline([('tfidf', vectorizer), ('svc', clf)])
documents, y = load_training_data()
tfidf_svm.fit(documents, y)

这样，只需要持久化一个对象：

from sklearn.externals import joblib
joblib.dump(tfidf_svm, 'model.pkl')

要在测试文档上应用模型，请加载经过训练的管道，并像往常一样简单地使用其predict函数，将原始文档作为输入。

基于搜索"如何使用保存的模型进行预测？"，我被重定向到了这里。因此，添加到YS-L的答案，最后一步。

保存型号

from sklearn.externals import joblib
joblib.dump(fittedModel, 'name.model')

加载保存的模型并预测

fittedModel = joblib.load('name.model')
fittedModel.predict(X_new)  # X_new is unseen example to be predicted

您可以简单地将clf.predict与.apply和lambda 一起使用

datad['Predictions']=datad['InputX'].apply(lambda x: unicode(clf.predict(count_vect.transform([x]))))

相关内容

最新更新

热门标签：