胡萝卜评分,标签,短语和相似度



我不太明白Carrot2中标签和短语之间的区别,在http://doc.carrot2.org/中它们似乎也没有给出明确的区别。我试着把它们都打印出来,但它们显然是一样的(使用kmeansclustering)。有人能给我解释一下吗?

我也想知道分数。在聚类之后,我的聚类没有任何分数,我应该自己计算这些分数吗?

关于相似性,是否有可能使用Carrot2来确定查询与集群的相似程度?

标签、短语和分数的确切含义因算法而异。一般来说,一个标签可以由一个或多个短语组成。一些算法总是产生一个短语标签,其他算法可能输出由多个短语组成的标签。对于k-means聚类,您可以使用labelCount属性设置每个标签的字数。

聚类得分也是特定于算法的,是聚类算法对聚类质量的信念。目前K-means的实现确实不会产生任何分数。如果你想计算一个常见的集群质量指标,最简单的方法可能是直接扩展算法的代码,因为它可以让你访问计算质心和距离所需的向量空间模型。

当涉及到计算查询和集群之间的相似性时,同样有许多可能性。对于k-means集群,您可以假设向量空间模型,并计算查询对应的向量与集群质心之间的距离。

最新更新