在Kmeans聚类中,我们可以定义聚类的个数。但是,是否有可能定义cluster_1将包含20%的数据,cluster_2将包含30%的数据,cluster_3将包含其余的数据点?
我试着用python来做,但是做不到。
这里讨论了如何修改KMeans以使所有集群具有相同的大小。您可以进一步修改它,使集群具有您想要的各自大小。
使用K-means聚类,正如你所说,我们指定簇的数量,但实际上不可能指定数据点的百分比。如果您想为每个集群指定准确的数据点百分比,我建议使用Fuzzy-C