使用pairwise_distances_chunked查找成对余弦距离矩阵的优化方法



我有一个 42000(行(* 110000(维度(的 numpy 数组,我正在尝试创建一个具有 42GB RAM 和 42000 个内核的成对距离矩阵(42000*8 个内核(。

我试过pairwise_distances_chunked但它只给出了 3120*42000 距离矩阵.也用pairwise_distances但它给出了内存不足错误。

任何建议可以做什么?

阅读pairwise_distances_chunked的文档,它一次产生一个块。 根据你表达问题的方式,你似乎这样做了:

D_chunk = next(pairwise_distances_chunked(X))

该代码(这是文档中的第一个示例(仅为您提供第一个块。

您要做的是:

for chunk in pairwise_distances_chunked(X):
do_something(chunk)

最新更新