发现文档的新颖性

我有一个在不同时间创建的文档集合。我需要知道每个新传入的文档，它与已添加的文档集有多相似。新文档可以添加新术语，因此在此类文档中，我期望"新颖性"很高。我需要了解这种新颖性（或者，距离）

例如，假设已经有 d0、d1、d2 、d3，我有一个新的文档 d4

我想了解 d4 与 d0、d1、d2 和 d3 的不同之处。

我想到了几种方法，但有一些限制：

a）（d0， d4），（d1， d4

），（d2， d4），（d3， d4）之间的计算余弦相似性

或

找到新文档 D4 和每个以前看到的文档（即 D0、D1、D2、D4）之间的余弦角负值的最小值

这个想法是，最小值将给人一种D4的新颖性。

b）结合 D0、D1、D2、D3 并将其与 D4 进行比较然后找到余弦相似性

这些方法看起来可以吗？此外，是否有更合适的方法来获得新颖感，也许使用 K 均值聚类？

计算集合中单词的多项式分布估计值，以及新文档中单词的单独分布。计算KL散度，以了解这些分布的距离。

如果 d0、d1、d2 和 d3 不同怎么办？d4 与 d0 非常相似，与 d3 完全不同，因为 d0 和 d3 非常不同。

组合 d0-N 可能不是一个好主意，因为 N 越大，d（n+1）成为 d（0-N）子集的可能性就越大。

事实上，文档

级别的新颖性检测被认为很少有用，因为几乎每个文档都会有新的东西。为了解决这个问题，您可以使用hPAM来检索主题和余弦相似度以检测差异，而不是测量文档新颖性。您还可以使用Sendhilkumar在研究文章中通过主题建模进行新颖性检测中提出的新颖性分数，该分数被证明更好。

相关内容