我想为每个数据点找到最接近的核心样本。通过这种方式,我可以只用核心示例来表示我的数据(减少数据集)
Scikit似乎只提供了所有核心样本的阵列。将我的数据点与此数组进行比较的暴力方法是重加权。所以我想得到一个集群的核心样本,得到一个数据点的集群编号,然后得到最接近的核心样本。
我不认为DBSCAN应该以这种方式使用(数据缩减)。
但特别是,DBSCAN不会计算最近的核心点。所以它没有你想要的信息!
你必须自己做。
- 将所有核心点放入kdtree/balltree
- 使用索引查找最近的邻居
Scikit learn已经提供了你所需要的一切,它应该只是几行。