在Bag of Features/Visual Words范例中,我们在k
-维中有一个向量V
,其中V[i]=j
如果i
-第一个质心(由k
-means算法获得)是j
视觉描述符(例如SIFT描述符)的所有k
-质心中最接近的一个。
AFAIK,结果的视觉向量非常稀疏(这意味着大多数条目都是0值),因为k
真的很大,但我的问题是: k
的合理值是什么(因此向量大小)?数百个维度?成千上万的吗?特别是考虑到k
-means执行时间取决于k
这取决于你的数据。以下是经验法则:
K太小:你的集群不能代表所有的补丁。K太大:您可能会得到量化伪影,并且可能会过度拟合。