C# 的局部性保留哈希函数



我需要C#的局部性保留哈希函数实现(或者可能是替代解决方案)。 我想找出一种方法,使用相似性阈值将字符串(即有时长度略有不同的相似基因序列标记)映射到相同的存储桶中。 例如,如果两个基因序列标记的 Levenshtein 编辑距离

一些语音算法(例如 http://en.wikipedia.org/wiki/Soundex)可能会有所帮助。

它基本上将单词转换为描述其发音的字符数组。它可用于搜索相似的单词。同样重要的是要注意,这些算法是特定于语言(人类语言,而不是编程语言)的。

最新更新