构建一百万个单词限制的后缀树,并用测试集查询它,以找到最接近的匹配和分类



我要解决的问题:我有一百万个单词(多种语言(和某些课程,它们将其归类为我的培训语料库。鉴于单词的测试语料库(一定会随着时间的时间增加数量(,我想获得培训语料库中每个单词的最接近的匹配,因此将该单词分类为其最接近的匹配类别的相应类。

我的解决方案:最初,我做了这种不扩展的蛮力。现在,我认为我在培训语料库(O(n((的串联上建立了一个后缀树,并查询测试语料库(恒定时间(。试图在Python中做到这一点。

我正在寻找使我入门的工具或软件包,或者寻找其他更有效的方法来解决手头问题。预先感谢。

编辑1:至于我如何找到最接近的匹配,我在考虑确切的匹配对齐(来自后缀树(,然后在剩下的输入字符串的部分中,我想到了与仿射差距惩罚功能的本地对齐。

您最接近匹配的距离指标?

有一些论文涵盖了如何使用后缀树进行编辑距离搜索。对于每个后缀,都可以订购编辑矩阵的扩展,因此让一个人对后缀树进行排名的搜索,以增加距离的顺序找到匹配的项目。

一个示例是 top-k字符串相似性搜索,带有编辑限制约束(2013(https://doi.org/10.1109/icde.2013.6544886 https://scholar.google。com/Scholar?cluster = 13387662751776693983
提出的解决方案避免在添加列时计算表中的所有条目。

在您的问题中,对于每个单词,如果它们不依赖上下文,则可以适用于它们,那么上述单词将起作用,而对类映射的单词将需要全部。但是,如果它们取决于上下文,那么这似乎更接近语音标签的一部分。

相关内容

  • 没有找到相关文章

最新更新