我有一个分类数据集,我用DictVectorizer将数据转换为数字。
# training data
vect = DictVectorizer(sparse=False)
x = vect.fit_transform(samples)
# test data
vect.transform(samples)
但是这段代码在大型数据集中会产生内存问题,因为当每个类别包含许多类型时,它会占用太多内存。
我想要一个解决方案或算法来解决内存成本问题
- 升级scikit-learn
-
将稀疏设置为true
vect = DictVectorizer(sparse=False)