Google refine:使用facet工具来推断两列之间的映射



我一直在寻找,但还没有找到如何做到这一点在细化

我有两列唯一的IDS。对于a中的每个a,我想找到b中最接近的10个匹配

我的备用计划是使用Levenshtein来迭代…但是Refine有一个很好的接口,而且实现了更多的算法,我希望能够用它来做一些工作。

或者有其他工具可以做到这一点?

你知道你可以在Refine的聚类界面外使用像fingerprint或ngramFingerprint (source)这样的聚类算法吗?

使用您的IDS字段,基于该列创建一个新列,表达式如下:

现在可以在这个新列上与其他数据集交叉。这可能有助于找到更多的火柴。

最新更新