我有一个序列字符串'TTCTTGAAGACGAAAGGCCTCGTGATACGCCTTTATAGTTAATGTCATGATAATGGTTTCT'
我有标签为Sequence和属性seqFull的节点,其中包含一个大的DNA字符串。
想要返回节点和相似性得分,其中相似性得分大于.75(75%(,其中输入在Neo4J 中的大序列中找到相似的字符串
不使用术语CONTAINS来寻找精确匹配,而是类似CONTAINS,但仅在75%或更高下匹配
APOC插件有几个文本相似性函数,其中一些函数返回一个百分比(作为[0.0..1.0]范围内的浮点数(。你应该用谷歌搜索它们的底层算法,看看是否有合适的算法。
例如:
RETURN apoc.text.levenshteinSimilarity(
'TTCTTGAAGACGAAAGGGCCTCGTGATACGCCTATTTTTATAGGTTAATGTCATGATAATAATGGTTTCT',
'TAATGTCATGATAATAATGGTTTCTTTCTTGAAGACGAAAGGGCCTCGTGATACGCCTATTTTTATAGGT')
退货:
0.4