检测主题词字典中的噪声



我有一本大约1500个单词的字典。这 1500 个单词中并不是所有的都可以用作文本的主题(其中许多是我的字典中的噪音,也许只有 2-10% 可以用作主题),但我想给我的文档的主题可以在这 1500 个单词中找到。

因此,我应该从哪里开始,什么算法可能有效?谢谢!

您可以计算人员分配的每个主题在这些文档中出现的次数。为了解释单词的形态变化,您可以使用词干分析器或词形图(例如,用于Java的斯坦福PoS标记器或用于Python的NLTK)。然后,您可以仅根据它们在整个文档集中的计数来选择最有用的主题,或使用tf-idf(http://en.wikipedia.org/wiki/Tf%E2%80%93idf - 页面底部有指向某些实现的链接)。

最新更新