我正在编写Java文本挖掘工具。我想使用scikit-learn
分类器测试我的数据集。我正在用Java即时创建功能向量,并且矢量非常稀疏。我想将稀疏的向量/数据集导出到可以轻松使用scikit-learn
使用的格式中。我已经在Java中编写了一个导出功能,以ARFF格式导出数据集,但我发现没有办法使用scikit-learn
读取该数据集。有一些用于ARFF文件的Python解析器,但它们不支持稀疏数据集。
那么,如何将数据集导出到scikit-learn
可用的格式?即哪种格式?!
一种次优的但简单的方法是使用libsvm/svmlight格式,该格式是使用
的纯文本格式标签feature_index:feature_value feature_index:feature_value
如果您的数据不大,则可以正常工作。您可以使用sklearn.datasets.load_svmlight_file读取它。
我有点惊讶的是Python中的Arff读者不支持稀疏数据。您是否尝试过Scipy.io.arff.loadarff?