将分类数据转换为数字数据科学学习优化



我有一个分类数据集,我用DictVectorizer将数据转换为数字。

# training data
vect = DictVectorizer(sparse=False)
x =  vect.fit_transform(samples)
# test data
vect.transform(samples)

但是这段代码在大型数据集中会产生内存问题,因为当每个类别包含许多类型时,它会占用太多内存。

我想要一个解决方案或算法来解决内存成本问题

  1. 升级scikit-learn
  2. 将稀疏设置为true

    vect = DictVectorizer(sparse=False)

相关内容

  • 没有找到相关文章

最新更新