给定一个包含数十个单词的列表，我如何从数百个文本的语料库中找到最匹配的部分?

假设我有一个包含250个单词的列表，该列表可能包含所有独特的条目，也可能包含所有语法形式的单词，或者包含所有特定语法形式的单词(例如，所有过去时)。我还有一个文本语料库，它被方便地分成了一个部分数据库，每个部分可能有150个单词(也许我想在将来动态地确定这些部分，但我现在就把它放在这里)。

我的问题是:什么是一种有用的方法来从包含我的250个单词中的大部分的语料库中取出这些部分?

我看过一些全文搜索引擎，如Lucene，但我不确定它们是用来处理长查询列表的。布隆滤镜看起来也很有趣。我觉得用Perl最舒服，但如果Ruby或Python中有什么奇特的东西，我很乐意学习。此时，性能不是问题。

这种程序的用例是在语言教学中，有各种各样的单词列表来反映学习者知识的不同程度，并从原始来源中快速找到合适的文本或例子，这将是很好的。另外，我很想知道如何做到这一点。

实际上我正在寻找的是文档比较。在PostgreSQL中，我发现了一种通过与给定文档的相似性对文本进行排名的方法。

相关内容