如何保存稀疏数据集以由Scikit-Learn使用



我正在编写Java文本挖掘工具。我想使用scikit-learn分类器测试我的数据集。我正在用Java即时创建功能向量,并且矢量非常稀疏。我想将稀疏的向量/数据集导出到可以轻松使用scikit-learn使用的格式中。我已经在Java中编写了一个导出功能,以ARFF格式导出数据集,但我发现没有办法使用scikit-learn读取该数据集。有一些用于ARFF文件的Python解析器,但它们不支持稀疏数据集。

那么,如何将数据集导出到scikit-learn可用的格式?即哪种格式?!

一种次优的但简单的方法是使用libsvm/svmlight格式,该格式是使用

的纯文本格式

标签feature_index:feature_value feature_index:feature_value

如果您的数据不大,则可以正常工作。您可以使用sklearn.datasets.load_svmlight_file读取它。

我有点惊讶的是Python中的Arff读者不支持稀疏数据。您是否尝试过Scipy.io.arff.loadarff?

相关内容

  • 没有找到相关文章

最新更新