Python内存错误-学习巨大的输入数据



我需要在sklearn中训练svm分类器。特征向量的维数以十万为单位有成千上万个这样的特征向量。然而,每个维度可以是0、1或-1。每个特征向量中只有大约100个非零。有什么有效的方法可以把特征向量的信息传递给分类器吗?

我需要在sklearn中训练svm分类器。

你是说sklearn.svm.SVC ?对于高维稀疏数据和许多样本,LinearSVC, LogisticRegression, PassiveAggressiveClassifierSGDClassifier可以更快地训练,以达到相当的预测精度。

特征向量的维数以十万为单位,有成千上万个这样的特征向量。然而,每个维度可以是0、1或-1。每个特征向量中只有大约100个非零。有什么有效的方法可以把特征向量的信息传递给分类器吗?

找到一种方法来加载你的数据作为一个scipy.sparse矩阵,不存储零在内存中。请查看有关特征提取的文档。它将根据原始数据表示的性质为您提供相应的工具。

最新更新