Python K 表示聚类文本



我正在尝试找到一个例子来帮助我聚类我拥有的一些文本数据。数据的形式如下:

A,B,3
C,D,5
A,D,57

前两个条目是一对的成员,数字是该对在数据集中出现的频率。我有超过 200,000 个独特的对。

有什么提示吗?谢谢!!

不要对此类数据使用 k 均值。

这是行不通的。

您拥有的是相似性矩阵,而不是 k 均值所需的连续向量。您可以尝试分层聚类(具有稀疏的相似性,而不是距离;不,我不会为您编写代码)。

相关内容

  • 没有找到相关文章

最新更新