Scikit Learn - fit_transform 在测试集上 - Scikit learn - fit_transform on the test set 小贝子编程网

我正在努力在Python中使用Random Forest和Scikit learn。我的问题是我用它来进行文本分类（在 3 类中 - 正/负/中性），我提取的特征主要是单词/unigram，所以我需要将它们转换为数字特征。我找到了一种用DictVectorizer fit_transform的方法：

from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report
from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse=False)
rf = RandomForestClassifier(n_estimators = 100)
trainFeatures1 = vec.fit_transform(trainFeatures)
# Fit the training data to the training output and create the decision trees
rf = rf.fit(trainFeatures1.toarray(), LabelEncoder().fit_transform(trainLabels))
testFeatures1 = vec.fit_transform(testFeatures)
# Take the same decision trees and run on the test data
Output = rf.score(testFeatures1.toarray(), LabelEncoder().fit_transform(testLabels))
print "accuracy: " + str(Output)

我的问题是fit_transform方法正在处理训练数据集，其中包含大约 8000 个实例，但是当我尝试将我的测试集转换为数字特征（大约 80000 个实例）时，我收到一个内存错误，说：

testFeatures1 = vec.fit_transform(testFeatures)
File "C:Python27libsite-packagessklearnfeature_extractiondict_vectorizer.py", line 143, in fit_transform
return self.transform(X)
File "C:Python27libsite-packagessklearnfeature_extractiondict_vectorizer.py", line 251, in transform
Xa = np.zeros((len(X), len(vocab)), dtype=dtype)
MemoryError

什么可能导致这种情况，是否有任何解决方法？非常感谢！

您不应该对测试数据执行fit_transform，而只能对transform执行。否则，您将获得与训练期间使用的矢量化不同的矢量化。

对于内存问题，我推荐 TfIdfVectorizer ，它有许多降低维度的选项（通过删除罕见的单字母等）。

更新

如果唯一的问题是拟合测试数据，只需将其拆分为小块即可。而不是类似的东西

x=vect.transform(test)
eval(x)

你可以做

K=10
for i in range(K):
    size=len(test)/K
    x=vect.transform(test[ i*size : (i+1)*size ])
    eval(x)

并记录结果/统计数据并在事后进行分析。

特别

predictions = []
K=10
for i in range(K):
    size=len(test)/K
    x=vect.transform(test[ i*size : (i+1)*size ])
    predictions += rf.predict(x) # assuming it retuns a list of labels, otherwise - convert it to list
print accuracy_score( predictions, true_labels )

Scikit Learn - fit_transform 在测试集上

相关内容

最新更新

热门标签：