Neo4j使用JACCARD或sorensenCanceSimilarity或类似的东西在节点上查找字符串的相似性



我有一个序列字符串'TTCTTGAAGACGAAAGGCCTCGTGATACGCCTTTATAGTTAATGTCATGATAATGGTTTCT'

我有标签为Sequence和属性seqFull的节点,其中包含一个大的DNA字符串。

想要返回节点和相似性得分,其中相似性得分大于.75(75%(,其中输入在Neo4J 中的大序列中找到相似的字符串

不使用术语CONTAINS来寻找精确匹配,而是类似CONTAINS,但仅在75%或更高下匹配

APOC插件有几个文本相似性函数,其中一些函数返回一个百分比(作为[0.0..1.0]范围内的浮点数(。你应该用谷歌搜索它们的底层算法,看看是否有合适的算法。

例如:

RETURN apoc.text.levenshteinSimilarity(
'TTCTTGAAGACGAAAGGGCCTCGTGATACGCCTATTTTTATAGGTTAATGTCATGATAATAATGGTTTCT',
'TAATGTCATGATAATAATGGTTTCTTTCTTGAAGACGAAAGGGCCTCGTGATACGCCTATTTTTATAGGT')

退货:

0.4

最新更新