我一直在寻找,但还没有找到如何做到这一点在细化
我有两列唯一的IDS。对于a中的每个a,我想找到b中最接近的10个匹配
我的备用计划是使用Levenshtein来迭代…但是Refine有一个很好的接口,而且实现了更多的算法,我希望能够用它来做一些工作。
或者有其他工具可以做到这一点?
你知道你可以在Refine的聚类界面外使用像fingerprint或ngramFingerprint (source)这样的聚类算法吗?
使用您的IDS字段,基于该列创建一个新列,表达式如下:
现在可以在这个新列上与其他数据集交叉。这可能有助于找到更多的火柴。