发现文档的新颖性



我有一个在不同时间创建的文档集合。我需要知道每个新传入的文档,它与已添加的文档集有多相似。新文档可以添加新术语,因此在此类文档中,我期望"新颖性"很高。我需要了解这种新颖性(或者,距离)

例如,假设已经有 d0、d1、d2 、d3,我有一个新的文档 d4

我想了解 d4 与 d0、d1、d2 和 d3 的不同之处。

我想到了几种方法,但有一些限制:

a) (d0, d4) , (d1, d4

), (d2, d4) , (d3, d4) 之间的计算余弦相似性

  • 找到平均余弦相似性。

找到新文档 D4 和每个以前看到的文档(即 D0、D1、D2、D4)之间的余弦角负值的最小值

这个想法是,最小值将给人一种D4的新颖性。

b) 结合 D0、D1、D2、D3 并将其与 D4 进行比较然后找到余弦相似性

这些方法看起来可以吗?此外,是否有更合适的方法来获得新颖感,也许使用 K 均值聚类?

计算集合中单词的多项式分布估计值,以及新文档中单词的单独分布。计算KL散度,以了解这些分布的距离。

如果 d0、d1、d2 和 d3 不同怎么办?d4 与 d0 非常相似,与 d3 完全不同,因为 d0 和 d3 非常不同。

组合 d0-N 可能不是一个好主意,因为 N 越大,d(n+1) 成为 d(0-N) 子集的可能性就越大。

事实上,文档

级别的新颖性检测被认为很少有用,因为几乎每个文档都会有新的东西。为了解决这个问题,您可以使用hPAM来检索主题和余弦相似度以检测差异,而不是测量文档新颖性。您还可以使用Sendhilkumar在研究文章中通过主题建模进行新颖性检测中提出的新颖性分数,该分数被证明更好。

最新更新