使用Dataframe激发行之间的余弦距离

我必须计算每行之间的余弦距离，但我不知道如何优雅地使用Spark API数据帧。其想法是计算每行(项)的相似性，并通过比较行之间的相似性来获得前10个相似性。-->这是物资品种推荐系统的需要。

我所读到的都是关于计算列上的相似性Apache Spark Python DataFrames上的余弦相似性有人会说，使用PySpark Dataframe的API或RDD可以优雅地计算行之间的余弦距离吗？或者我必须手动计算？

这只是一些代码来显示我打算做什么

def cosineSimilarity(vec1, vec2):
return vec1.dot(vec2) / (LA.norm(vec1) * LA.norm(vec2))

#p.s model is ALS
Pred_Factors = model.itemFactors.cache() #Pred_Factors = DataFrame[id: int, features: array<float>]
sims = []
for _id,_feature in Pred_Factors.toLocalIterator():
for id, feature in Pred_Factors.toLocalIterator():
itemFactor = _feature
sims = sims.append(_id, cosineSimilarity(asarray(feature),itemFactor))
sims = sc.parallelize(l)
sortedSims = sims.takeOrdered(10, key=lambda x: -x[1])

提前感谢的所有帮助

您可以使用mllib.feature.IndexedRowMatrix的columnSimilarities函数。它使用余弦度量作为距离函数。它计算列之间的相似性，因此，在应用此函数之前，必须进行转置。

pred_ = IndexedRowMatrix(Pred_Factors.rdd.map(lambda x: IndexedRow(x[0],x[1]))).toBlockMatrix().transpose().toIndexedRowMatrix()
pred_sims = pred.columnSimilarities()

相关内容

最新更新

热门标签：