我需要在sklearn中训练svm分类器。特征向量的维数以十万为单位有成千上万个这样的特征向量。然而,每个维度可以是0、1或-1。每个特征向量中只有大约100个非零。有什么有效的方法可以把特征向量的信息传递给分类器吗?
我需要在sklearn中训练svm分类器。
你是说sklearn.svm.SVC
?对于高维稀疏数据和许多样本,LinearSVC
, LogisticRegression
, PassiveAggressiveClassifier
或SGDClassifier
可以更快地训练,以达到相当的预测精度。
特征向量的维数以十万为单位,有成千上万个这样的特征向量。然而,每个维度可以是0、1或-1。每个特征向量中只有大约100个非零。有什么有效的方法可以把特征向量的信息传递给分类器吗?
找到一种方法来加载你的数据作为一个scipy.sparse
矩阵,不存储零在内存中。请查看有关特征提取的文档。它将根据原始数据表示的性质为您提供相应的工具。