单词聚类

我正在尝试聚集一些单词(让我们乘坐汽车品牌(。为了做到这一点，我不能使用K-均值或K-摩托来，因此我尝试使用Sklearn的亲和力传播。我正在使用levenshtein从距离lib或 damerau_levenshtein_distance pyxdameraulevenshtein lib。

使用它。

示例在这里：https：//stats.stackexchange.com/questions/123060/clustering-a-long-long-list-of-strings-words-into-into-simerity-grups

但是，这些指标并不是我需要的指标。例如，梅赛德斯 - 奔驰和梅赛德斯的距离为5距离，与沃尔沃和菲亚特相同。你们知道一些指标，在梅赛德斯 - 奔驰和梅赛德斯之间比沃尔沃和菲亚特提供了更高的相似性得分。

谢谢djokx

您可以使用构成这些单词的tri-gram中的jaccard相似性。也就是说，您将每个单词的三个字符组件(对于沃尔沃：Vol，Olv，LVO(中分解，并获得彼此相似的Jaccard相似性。n-gram。

jaccard的相似性定义为公共n-grams数量和总n-grams 的数量：jaccard index。

相关内容

最新更新

热门标签：