我对处理文本数据相当陌生。
我有一个大约300000个独特产品名称的数据框架,我正试图使用k表示将类似的名称聚类在一起。我使用sklearn的tfidfvectorizer对名称进行矢量化,并转换为tf-idf矩阵。
在我把它转换成稀疏矩阵后,我用5-10个簇拟合k均值,但我不知道我是否收敛。
我该怎么想?
根据源,属性n_iter_
应包含迭代次数k-means。如果n_iter_ < max_iter
,则算法收敛在给定的容差内。
如果您试图完成的是确定簇的最佳数量,则可以使用具有inertia_
属性的弯头方法。