如何在弹性搜索上计算两个二进制文件之间的汉明距离



我想将二进制文件保存在 elasticsearch 中,然后根据相似性分数(基于汉明距离(返回结果查询。所以我可以检索最接近的(这将有更多的分数(。

例子:

00001111000000000000000010000111100000000000000000

(汉明距离为1,近在咫尺,得分高(

00001111000011100000000010111110100000001111100000

(汉明距离是13,很远,分数低(

我想带最近的,如果足够近,检测到它们几乎相同。

你可能想看看 FENSHSES (Fast Exact Neighbor在Elasticsearch上的汉明空间搜索(方法由这篇最近的论文提出:

穆春、赵军、杨国、杨斌、严志伟,2019年10月。在全文搜索引擎上的汉明空间中快速准确地搜索最近邻。在相似性搜索和应用国际会议(第49-56页(。斯普林格,湛。

Elasticsearch上在汉明空间中进行最近邻搜索似乎是最先进的方法。

最新更新