我目前正在使用python包sklearn.cluster.对3D坐标点进行一些聚类分析
我使用了K-means聚类,它输出计算出的聚类中心。我真正想要的是该集群中的哪个数据点与该集群中所有其他数据点的距离最小。我猜这将是我的数据集中最接近聚类中心的点,但由于我的数据集很大,使用某种最小化搜索算法并不实际。有没有其他集群方法或其他python脚本的建议可以帮助我找到这一点?
找到离中心最近的一对只需要O(n),所以便宜得像k均值的一次迭代一样——还不错。
这比平均值更糟糕,但这是你最好的猜测。
注意:它的不是最小的平均距离(欧几里得)。
平均值是一个最小二乘最优值,它具有最小二乘偏差(即平方欧几里得)。
这是平均值和中值之间的差值。中值是最中心的数据点;不是吝啬鬼。但是,找到中位数要比计算平均值贵得多。
要证明最接近平均值的点将具有所有数据点的最小平方偏差,应该不太难(尝试表明RMSD较小的点必须更接近)。