正如标题告诉的一切,这里是光谱聚类的链接光谱聚类文档
它的第一步是为我们的数据点提取相似性矩阵。当它说相似性矩阵时,我假设相同实体(用户、文档等)之间的相似性应该是1(而不是距离矩阵,其中它是0)。
但在他们的例子中,他们为相同的实体分配了0分:
0,00
1,1 0
这里我有点困惑。以前研究光谱聚类的人能帮我吗。。
附言:我有自己的方法来计算相似性得分,所以我不想使用任何内置的mahout函数。
提前谢谢。。
我认为我们应该将相似性矩阵视为图论中邻接矩阵的一个扩展:如果两个节点相邻,则为1,如果不相邻则为0。在你的情况下,所有的节点都是相邻的,你通过相似性矩阵来思考这个相邻矩阵,以编码关于"两个观测值有多少相邻?"的信息。
由于我们不认为节点与自身相邻,除非它与自身有连接,因此邻接矩阵的对角线设置为0。