如何计算tf-idf的k均值何时收敛



我对处理文本数据相当陌生。

我有一个大约300000个独特产品名称的数据框架,我正试图使用k表示将类似的名称聚类在一起。我使用sklearn的tfidfvectorizer对名称进行矢量化,并转换为tf-idf矩阵。

在我把它转换成稀疏矩阵后,我用5-10个簇拟合k均值,但我不知道我是否收敛。

我该怎么想?

根据源,属性n_iter_应包含迭代次数k-means。如果n_iter_ < max_iter,则算法收敛在给定的容差内。

如果您试图完成的是确定簇的最佳数量,则可以使用具有inertia_属性的弯头方法。

最新更新