在为推荐系统分解评分矩阵时,评分矩阵可以写成p*t(Q),其中p表示用户因素矩阵,Q表示项目因素矩阵。Q的维度可以写成等级*项目数量。我想知道Q矩阵中的值是否真的代表了什么,比如物品的重量?还有,有没有办法找出Q矩阵中的一些隐藏模式?
将特征视为多维数据中变化的重要方向。想象一下,一个三维图表描绘了用户购买的3件商品中的哪一件。它将是一个无定形的斑点,但斑点的实际轴或方向可能不是沿着x、y、z轴。它所沿着的向量是向量形式的特征。将其应用于巨大的维度数据(许多用户、许多项目),这种高维度数据通常可以由少量向量跨越,不沿着这些新轴的大多数方差都很小,甚至可能是噪声。因此,像ALS这样的算法可以找到代表大部分数据跨度的少数向量。因此,"特征"可以被认为是数据变化的主要模式,或者换句话说,是描述一个项目与另一个项目如何不同的原型。
请注意,推荐器中的PQ因子分解依赖于丢弃不重要的特征来实现潜在的巨大数据压缩。这些无关紧要的特征(那些在用户/项目输入中几乎没有变化的特征)可以被丢弃,因为它们通常被解释为噪声,并且在实践中产生更好的丢弃结果。
你能找到隐藏的图案吗;当然新的较小但密集的项目和用户向量可以用聚类、KNN等技术处理。它们只是由新的基向量——新的轴——定义的新"空间"中的向量。当你想解释这些操作的结果时,你需要将它们转换回item&用户空间。
ALS(PQ矩阵分解)的本质是将用户的特征向量转换到项目空间中,并根据项目权重进行排序。推荐排名最高的项目。