在 Apache Mahout 中显示两个用户之间的 pearson 相关性相似性



有人知道如何在Apache Mahout中获取给定数据集的任何两个用户之间的相似性数值吗?

有几种方法,您的数据是什么样的?是购买、观看或评分等互动数据吗?

如果是这样,项目相似性或火花项目相似性将起作用,但不是馈送交换项目和用户 ID。如果将数据编码为稀疏矩阵(每个用户一行(,则还可以使用 rowsimilarity 或 spark-rowsimilarity。

对于 hadoop 作业,ID 必须是 Mahout ID、项目和用户的非零行号和列号。对于 Spark 作业,您可以使用所需的任何 ID - 它们将作为文本读取,因此必须是唯一的字符串。

皮尔逊只得到Hadoop工作的支持。Spark 作业仅使用对数似然比。在协同过滤应用程序中,LLR几乎总是比其他"相似性"指标更好。

相关内容

最新更新