文档聚类的对数似然相似性



我使用以下log似然公式来比较文档和集群之间的相似性:log p(d|c)=sum(c(w,d)*log p(w|c));c(w,d)是文档中单词的频率,p(w|c)是单词w由聚类c生成的可能性。

问题是,基于这种相似性,文档经常被分配到错误的集群。如果我将文档分配给log p(d|c)最高的集群(因为它通常是负值——log p(d |c)),那么它将是包含文档中大量单词的集群,但这些单词在集群中出现的概率很低。如果我将文档分配给具有最低log p(d|c)的集群,那么它将是仅在一个单词中与文档相交的集群。有人能解释一下如何正确使用对数似然吗?我尝试用java实现这个函数。我已经在谷歌学者上查过了,但没有找到合适的解释来解释文本挖掘中的对数似然性。提前感谢

您的对数似然公式对于用多项式模型描述文档是正确的(每个文档中的单词是独立于多项式分布生成的)。

要获得最大似然聚类分配,您应该采用最大log p(d|c)的聚类分配c。log p(d|c)应该是一个负数——最大值是最接近零的数字。

如果你得到的集群分配没有意义,很可能是因为多项式模型没有很好地描述你的数据。因此,你的问题的答案很可能是你应该选择不同的统计模型或使用不同的聚类方法。

最新更新