我需要计算文本块(A
)在另一个文本块(B
)中有多少。像soundex这样的简单算法并没有为我提供很好的结果,因为文本B
在其中有额外的文本,而不是/不应该在文本A
中,这使我的数字消失。我需要确保A
的一定百分比在B
之内,并且忽略B
的添加。
对于一个简单的算法,我首先想到的是将A
分解成句子,记下句子的总数,然后在B
中搜索每个句子的实例,以提供百分比。虽然这应该可以工作,但感觉相当粗糙,我相信比我更聪明的人已经设计了一种算法,根据类似的原理提供更好的计算。
最长公共子序列看起来最适合您的目的。