用于大型数据集的词袋对象识别



我正在用单词直方图实现对象识别。直方图由每个图像200个"单词"组成,这些单词来自描述符。问题是,对于一个大的数据集,比如5000张图像,我们突然在直方图中有200x5000=1000000个单词。这意味着每个对象都将由1000000长度的直方图表示。

过了某个时候,它变得太大太麻烦了。有办法绕过这个吗?

通常,您选择的码本大小与训练图像的数量无关。您可以通过在从所有训练数据中提取的一组描述符上运行k-means(或其他字典学习方法)来构建代码簿。

因此,在您的示例中,如果您有5000个训练图像,并且从每个图像中提取了大约1000个描述符,那么您将获得5000000个描述符,您可以使用k-均值对其进行聚类。

这可能非常耗时,所以您可以选择使用描述符的随机子集进行集群。

相关内容

  • 没有找到相关文章

最新更新