我有一个svmlight格式的大数据集(100K乘30K)和(非常)稀疏的数据集,我加载如下:
import numpy as np
from scipy.cluster.vq import kmeans2
from scipy.spatial.distance import pdist, squareform
from sklearn.datasets import load_svmlight_file
X,Y = load_svmlight_file("somefile_svm.txt")
其返回稀疏scipy阵列X
我只需要将所有训练点的成对距离计算为
D = pdist(X)
不幸的是,scipy.spatial.distance中的距离计算实现仅适用于密集矩阵。由于数据集的大小,例如使用pdist作为是不可行的
D = pdist(X.todense())
任何指向稀疏矩阵距离计算实现的指针或与此问题有关的解决方案都将受到极大的赞赏。
非常感谢
在scikit-learn
中,有一个sklearn.metrics.euclidean_distances
函数既适用于稀疏矩阵,也适用于密集numpy数组。请参阅参考文档。
然而,对于稀疏矩阵,非欧氏距离尚未实现。