如何保存稀疏数据集以由Scikit-Learn使用

我正在编写Java文本挖掘工具。我想使用scikit-learn分类器测试我的数据集。我正在用Java即时创建功能向量，并且矢量非常稀疏。我想将稀疏的向量/数据集导出到可以轻松使用scikit-learn使用的格式中。我已经在Java中编写了一个导出功能，以ARFF格式导出数据集，但我发现没有办法使用scikit-learn读取该数据集。有一些用于ARFF文件的Python解析器，但它们不支持稀疏数据集。

那么，如何将数据集导出到scikit-learn可用的格式？即哪种格式？！

一种次优的但简单的方法是使用libsvm/svmlight格式，该格式是使用

的纯文本格式

标签feature_index：feature_value feature_index：feature_value

如果您的数据不大，则可以正常工作。您可以使用sklearn.datasets.load_svmlight_file读取它。

我有点惊讶的是Python中的Arff读者不支持稀疏数据。您是否尝试过Scipy.io.arff.loadarff？

相关内容

最新更新

热门标签：