小贝子编程

在 Apache Mahout 中显示两个用户之间的 pearson 相关性相似性

有人知道如何在Apache Mahout中获取给定数据集的任何两个用户之间的相似性数值吗？

有几种方法，您的数据是什么样的？是购买、观看或评分等互动数据吗？

如果是这样，项目相似性或火花项目相似性将起作用，但不是馈送交换项目和用户 ID。如果将数据编码为稀疏矩阵(每个用户一行(，则还可以使用 rowsimilarity 或 spark-rowsimilarity。

对于 hadoop 作业，ID 必须是 Mahout ID、项目和用户的非零行号和列号。对于 Spark 作业，您可以使用所需的任何 ID - 它们将作为文本读取，因此必须是唯一的字符串。

皮尔逊只得到Hadoop工作的支持。Spark 作业仅使用对数似然比。在协同过滤应用程序中，LLR几乎总是比其他"相似性"指标更好。

相关内容