我使用DBSCAN方法对图像进行聚类,但是它给出了意想不到的结果。假设我有10张图片。
首先,我使用cv2.imread
在循环中读取图像。然后计算各图像之间的结构相似性指数。之后,我有一个像这样的矩阵:
[
[ 1. -0.00893619 0. 0. 0. 0.50148778 0.47921832 0. 0. 0. ]
[-0.00893619 1. 0. 0. 0. 0.00996088 -0.01873205 0. 0. 0. ]
[ 0. 0. 1. 0.57884212 0. 0. 0. 0. 0. 0. ]
[ 0. 0. 0.57884212 1. 0. 0. 0. 0. 0. 0. ]
[ 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
[ 0.50148778 0.00996088 0. 0. 0. 1. 0.63224396 0. 0. 0. ]
[ 0.47921832 -0.01873205 0. 0. 0. 0.63224396 1. 0. 0. 0. ]
[ 0. 0. 0. 0. 0. 0. 0. 1. 0.77507487 0.69697053]
[ 0. 0. 0. 0. 0. 0. 0. 0.77507487 1. 0.74861881]
[ 0. 0. 0. 0. 0. 0. 0. 0.69697053 0.74861881 1. ]]
看起来不错。然后我简单地调用DBSCAN:
db = DBSCAN(eps=0.4, min_samples=3, metric='precomputed').fit(distances)
labels = db.labels_
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
结果是
[0 0 0 0 0 0 0 0 0 0]
我做错了什么?为什么它把所有的映像放到一个集群中?
DBSCAN通常假定不相似性(距离)而不是相似性。它也可以用相似度阈值来实现(参见Generalized DBSCAN)
问题是我计算距离矩阵不正确-主对角线上的条目都是零