小贝子编程

聚类，大型数据集，学习大量词汇

我正在尝试从大型数据集进行聚类：行数：140万行列：900

预期群集数：10,000 (10K(

问题是：我的数据集为10Gb，而我的RAM为16Gb。我正在尝试在 Matlab 中实现。如果有人能对此做出回应，那对我有很大帮助。

附言到目前为止，我已经尝试了分层聚类。在一篇论文中，他们建议采用">固定半径增量预聚类"。但我不明白程序。

提前谢谢。

使用一些不需要距离矩阵的算法。相反，请选择一个可以索引加速的。

使用距离矩阵将超出您的记忆。但即使不需要这个(例如，SLINK只使用O(n(内存(，它仍然可能需要太长时间。索引可以将运行时减少到 O(n log n(，尽管在您的数据上，索引可能存在问题。

索引加速算法例如：光学，DBSCAN。

只是不要为这些算法使用非常糟糕的 Matlab 脚本。

相关内容