文档标记命名主题,相关文献?(Quora上也有这个问题)



我正在研究对我来说是一个非常新的数据科学领域,我想知道是否有人可以建议任何现有的学术文献,有相关的方法来解决我的问题。

问题设置如下:我有一组已命名的主题(大约100个主题)。我们有一个文档标记引擎,可以根据文档(在我们的例子中是新闻文章)的文本标记100个主题中的5个。

所有这些都是使用相当基本的相似性度量来完成的(每个主题是一个文本向量,每个文档也是,我们在这些向量之间做一个相似性,并为每个文档分配5个最相似的主题)。

我们希望提高这个过程的质量,但限制是我们必须维护100个命名主题的集合,这对其他目的至关重要,所以像LDA这样的无监督主题模型是不存在的,因为:1. 它们不提供命名主题2. 即使我们能够以某种方式将LDA输出的主题分布映射到现有主题,这些分布也不会保持不变,而是随着底层语料库而变化。

那么,谁能给我指出那些使用有限命名主题集进行文档标记的论文?

这里有两个挑战:1. 给定一组有限的命名主题,如何用它们标记新文档?(这是更大更明显的挑战)2. 如何使主题随文档范围的变化而更新?任何能够解决其中一个或两个挑战的工作都将是很大的帮助。

注:我也在Quora上问过这个问题,如果有人在寻找答案,想要阅读这两篇文章。我重复这个问题,因为我觉得它很有趣,我想让尽可能多的人讨论这个问题,尽可能多的文献建议。

Quora上也有同样的问题

您是否尝试过分类?

为每个主题训练一个分类器。

最新更新