聚类,大型数据集,学习大量词汇



我正在尝试从大型数据集进行聚类:行数:140万行 列:900

预期群集数:10,000 (10K(

问题是:我的数据集为10Gb,而我的RAM为16Gb。我正在尝试在 Matlab 中实现。如果有人能对此做出回应,那对我有很大帮助。

附言到目前为止,我已经尝试了分层聚类。在一篇论文中,他们建议采用">固定半径增量预聚类"。但我不明白程序。

提前谢谢。

使用一些不需要距离矩阵的算法。相反,请选择一个可以索引加速的。

使用距离矩阵将超出您的记忆。但即使不需要这个(例如,SLINK只使用O(n(内存(,它仍然可能需要太长时间。索引可以将运行时减少到 O(n log n(,尽管在您的数据上,索引可能存在问题。

索引加速算法例如:光学,DBSCAN。

只是不要为这些算法使用非常糟糕的 Matlab 脚本。

最新更新