给定一个包含数十个单词的列表,我如何从数百个文本的语料库中找到最匹配的部分?



假设我有一个包含250个单词的列表,该列表可能包含所有独特的条目,也可能包含所有语法形式的单词,或者包含所有特定语法形式的单词(例如,所有过去时)。我还有一个文本语料库,它被方便地分成了一个部分数据库,每个部分可能有150个单词(也许我想在将来动态地确定这些部分,但我现在就把它放在这里)。

我的问题是:什么是一种有用的方法来从包含我的250个单词中的大部分的语料库中取出这些部分?

我看过一些全文搜索引擎,如Lucene,但我不确定它们是用来处理长查询列表的。布隆滤镜看起来也很有趣。我觉得用Perl最舒服,但如果Ruby或Python中有什么奇特的东西,我很乐意学习。此时,性能不是问题。

这种程序的用例是在语言教学中,有各种各样的单词列表来反映学习者知识的不同程度,并从原始来源中快速找到合适的文本或例子,这将是很好的。另外,我很想知道如何做到这一点。

实际上我正在寻找的是文档比较。在PostgreSQL中,我发现了一种通过与给定文档的相似性对文本进行排名的方法。

最新更新