使用大型数据集6GB处理k均值的Scikit-Learn



我正在使用scikit-learn。我想集中一个文档的6GB数据集并找到文档群。

我只有大约4GB RAM。有没有办法让K-均在Scikit-Learn中处理大型数据集?

谢谢你,如果您有任何疑问,请告诉我。

HashingVectorizer一起使用MiniBatchKMeans;这样,您可以在单个通过的数据中学习群集模型,在您使用的情况下或第二次通过时分配群集标签。有一个示例脚本演示MBKM。

聚类本身并不是定义明确的问题('好'聚类结果取决于您的应用程序),而K-Means算法仅根据随机初始化标准提供本地最佳的解决方案。因此,我怀疑您会从数据集的随机2GB子样本中获得的结果与您在整个6GB中会聚集的结果在质量上有所不同。我肯定会尝试在减少的数据集上聚类,作为呼叫的第一个端口。下一个选项是更明智地子样本,或使用不同的子集进行多个培训运行,并在多个运行中进行某种选择/平均。

相关内容

  • 没有找到相关文章

最新更新