我已经在scikit中实现了k-means算法。因此,我对历史文献进行了聚类。现在,对于一个新文档,我想确定集群。如何确定新文档的群集?
假设您使用构建分类器
km = KMeans()
km.fit(X)
如果您有与X
具有相同矢量格式的X_new_sample
,则可以使用predict()
来识别X_new_sample
中的每一行属于哪个簇。
km.predict(X_new_sample)