如何在scikit-learn中加载数据集包含txt文件



我将在我的SVM实现中使用scikit-learn库进行分类。

我的要素值为 0/1,我已将这些值保存在要素的 txt 文件中和标签的单独 txt 文件中。

现在我的问题是如何使用scikit-learn为训练和测试阶段加载我的外部数据集?

将矢量化数据,尤其是压缩(稀疏)数据保存在 TXT/CSV 文件中并不是最好的方法,因为您在读回时可能会遇到问题 - 您将丢失 dtypes、压缩/"稀疏"等。您甚至可能会遇到无法读取内存中的 TXT/CSV 文件的情况。

在这里,您可以看到将稀疏矩阵转换为以 MemoryError 结尾的普通 (numpy) 矩阵的示例。如果您将稀疏(压缩)矩阵保存到 CSV,然后尝试将其读回(未压缩),则可能会发生这种情况。

所以我建议你使用酸洗:

保存/序列化您的数据:

from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl') 

其中clf是经过训练的模型或其他稀疏/压缩数据结构

从磁盘读回:

from sklearn.externals import joblib
clf = joblib.load('filename.pkl') 

相关内容

  • 没有找到相关文章

最新更新