胡萝卜评分，标签，短语和相似度

我不太明白Carrot2中标签和短语之间的区别，在http://doc.carrot2.org/中它们似乎也没有给出明确的区别。我试着把它们都打印出来，但它们显然是一样的(使用kmeansclustering)。有人能给我解释一下吗?

我也想知道分数。在聚类之后，我的聚类没有任何分数，我应该自己计算这些分数吗?

关于相似性，是否有可能使用Carrot2来确定查询与集群的相似程度?

标签、短语和分数的确切含义因算法而异。一般来说，一个标签可以由一个或多个短语组成。一些算法总是产生一个短语标签，其他算法可能输出由多个短语组成的标签。对于k-means聚类，您可以使用labelCount属性设置每个标签的字数。

聚类得分也是特定于算法的，是聚类算法对聚类质量的信念。目前K-means的实现确实不会产生任何分数。如果你想计算一个常见的集群质量指标，最简单的方法可能是直接扩展算法的代码，因为它可以让你访问计算质心和距离所需的向量空间模型。

当涉及到计算查询和集群之间的相似性时，同样有许多可能性。对于k-means集群，您可以假设向量空间模型，并计算查询对应的向量与集群质心之间的距离。

相关内容