视觉词袋:什么是一个合理的词(向量)维度



在Bag of Features/Visual Words范例中,我们在k -维中有一个向量V,其中V[i]=j如果i -第一个质心(由k -means算法获得)是j视觉描述符(例如SIFT描述符)的所有k -质心中最接近的一个。

AFAIK,结果的视觉向量非常稀疏(这意味着大多数条目都是0值),因为k真的很大,但我的问题是: k的合理值是什么(因此向量大小)?数百个维度?成千上万的吗?特别是考虑到k -means执行时间取决于k

这取决于你的数据。以下是经验法则:

K太小:你的集群不能代表所有的补丁。K太大:您可能会得到量化伪影,并且可能会过度拟合。

最新更新