对音频指纹进行局部性敏感哈希



我正在研究一个音频指纹识别系统,最近我已经阅读了一些论文和研究,特别是这个页面:

我现在得到了每32ms音频的一系列指纹。我想做的是使用LSH或其他相似性保持方法散列这些单独的指纹(而不是它们的一个序列)。从我对LSH的理解来看,它在多维向量上工作,并产生二进制字符串,然后可以在汉明空间中进行比较。

我的问题是我的指纹不是多维的。它们都是长整数。如何使用LSH散列这些?是否有任何方法来散列(以保持相似度的方式)单维标量?

回复晚了,但事情是这样的,确实很简单,但不知道我怎么错过了。

LSH将使用随机投影向量将向量或标量投影到不同的维度空间,同时保持相似性。在这里找到一个好的答案https://stackoverflow.com/a/12967538/858467

我所要做的就是创建一个[n x 1]阶的随机投影矩阵然后将它与标量[1 x 1]或标量向量[1 x m]相乘得到投影[n x 1]或[n x m]。然后对它进行阈值处理,得到二值向量,似乎就可以了。

虽然这是我相信正确的相信方式来做到这一点(以前也以同样的方式做过),但到目前为止,我似乎无法得到好的二进制向量。当我对这个问题有更深入的了解时,我可能会发布另一个问题。

最新更新