我将在我的SVM实现中使用scikit-learn库进行分类。
我的要素值为 0/1,我已将这些值保存在要素的 txt 文件中和标签的单独 txt 文件中。
现在我的问题是如何使用scikit-learn为训练和测试阶段加载我的外部数据集?
将矢量化数据,尤其是压缩(稀疏)数据保存在 TXT/CSV 文件中并不是最好的方法,因为您在读回时可能会遇到问题 - 您将丢失 dtypes、压缩/"稀疏"等。您甚至可能会遇到无法读取内存中的 TXT/CSV 文件的情况。
在这里,您可以看到将稀疏矩阵转换为以 MemoryError
结尾的普通 (numpy) 矩阵的示例。如果您将稀疏(压缩)矩阵保存到 CSV,然后尝试将其读回(未压缩),则可能会发生这种情况。
所以我建议你使用酸洗:
保存/序列化您的数据:
from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl')
其中clf
是经过训练的模型或其他稀疏/压缩数据结构
从磁盘读回:
from sklearn.externals import joblib
clf = joblib.load('filename.pkl')