计算文本A在文本B中占多少的算法



我需要计算文本块(A)在另一个文本块(B)中有多少。像soundex这样的简单算法并没有为我提供很好的结果,因为文本B在其中有额外的文本,而不是/不应该在文本A中,这使我的数字消失。我需要确保A的一定百分比在B之内,并且忽略B的添加。

对于一个简单的算法,我首先想到的是将A分解成句子,记下句子的总数,然后在B中搜索每个句子的实例,以提供百分比。虽然这应该可以工作,但感觉相当粗糙,我相信比我更聪明的人已经设计了一种算法,根据类似的原理提供更好的计算。

最长公共子序列看起来最适合您的目的。

相关内容

  • 没有找到相关文章

最新更新