小贝子编程

Neo4j使用JACCARD或sorensenCanceSimilarity或类似的东西在节点上查找字符串的相似性

本文关键字：节点查找相似性字符串 sorensenCanceSimilarity 使用 Neo4j JACCARD neo4j similarity
更新时间 : 2023-09-18
英文 : Neo4j Find similarity of a string on Nodes either using JACCARD or sorensenDiceSimilarity or something similar

我有一个序列字符串'TTCTTGAAGACGAAAGGCCTCGTGATACGCCTTTATAGTTAATGTCATGATAATGGTTTCT'

我有标签为Sequence和属性seqFull的节点，其中包含一个大的DNA字符串。

想要返回节点和相似性得分，其中相似性得分大于.75(75%(，其中输入在Neo4J 中的大序列中找到相似的字符串

不使用术语CONTAINS来寻找精确匹配，而是类似CONTAINS，但仅在75%或更高下匹配

APOC插件有几个文本相似性函数，其中一些函数返回一个百分比(作为[0.0..1.0]范围内的浮点数(。你应该用谷歌搜索它们的底层算法，看看是否有合适的算法。

例如：

RETURN apoc.text.levenshteinSimilarity(
'TTCTTGAAGACGAAAGGGCCTCGTGATACGCCTATTTTTATAGGTTAATGTCATGATAATAATGGTTTCT',
'TAATGTCATGATAATAATGGTTTCTTTCTTGAAGACGAAAGGGCCTCGTGATACGCCTATTTTTATAGGT')

退货：

0.4

Neo4j使用JACCARD或sorensenCanceSimilarity或类似的东西在节点上查找字符串的相似性

相关内容

最新更新

热门标签：