单词聚类



我正在尝试聚集一些单词(让我们乘坐汽车品牌(。为了做到这一点,我不能使用K-均值或K-摩托来,因此我尝试使用Sklearn的亲和力传播。我正在使用levenshtein从距离lib或 damerau_levenshtein_distance pyxdameraulevenshtein lib。

使用它。

示例在这里:https://stats.stackexchange.com/questions/123060/clustering-a-long-long-list-of-strings-words-into-into-simerity-grups

但是,这些指标并不是我需要的指标。例如,梅赛德斯 - 奔驰和梅赛德斯的距离为5距离,与沃尔沃和菲亚特相同。你们知道一些指标,在梅赛德斯 - 奔驰和梅赛德斯之间比沃尔沃和菲亚特提供了更高的相似性得分。

谢谢djokx

您可以使用构成这些单词的tri-gram中的jaccard相似性。也就是说,您将每个单词的三个字符组件(对于沃尔沃:Vol,Olv,LVO(中分解,并获得彼此相似的Jaccard相似性。n-gram。

jaccard的相似性定义为公共n-grams数量总n-grams 的数量:jaccard index。

最新更新