组合两个基于深度学习的分类器的方法



我想有一个基于CNN的主分类器和一个类似的图像区域的二级分类器。

这两个分类器都将用于图像区域。我需要在主要区域使用第一个分类器,而辅助分类器用于辅助区域,并将用于支持第一个分类器做出的进一步证据的决定。

因此,主图像区域和辅助图像区域将一次用于推断一个类标签

如今,除了ROI池化之外,还有哪些其他方法或架构可以执行此类任务?

理想情况下,我希望有一个类似于本文的分类器方案,但不使用 ROI 池化。

https://arxiv.org/pdf/1505.01197.pdf

您可以查看此 https://arxiv.org/pdf/1611.10012.pdf 其中包含对最新检测体系结构的全面调查。基本上有 3 个元架构,所有模型都属于这些类别之一:

  1. Faster-RCNN:与您引用的论文类似,这是fast-rcnn的改进版本,它不使用选择性搜索,而是直接将提案生成集成到称为区域提案网络(rpn)的网络中。
  2. RFCN:在架构上与 1 相似,只是 ROI 池的执行方式不同,称为位置敏感 ROI 池。
  3. SSD:修改 Faster-rcnn 中的 rpn 以直接输出类概率,无需像在 roi 池中那样进行按 roi 计算。这是最快的体系结构类型。Yolo 属于这种架构。

我认为根据我对你引用的论文的粗略阅读,类型 3 是你正在寻找的那个。然而,在实现方面,实现等式3可能有点棘手,即你可能需要停止将梯度反向传播到与主要区域不重叠的区域(或至少考虑它如何影响最终结果),因为这种架构类型计算整个图像的概率。

我还注意到,实际上没有主要/次要"分类器"。该论文描述了主要/次要"区域",主要区域是包含人的区域(即使用人员检测器首先找到主要区域)。次要区域是与主要区域重叠的区域。对于活动分类,只有一个分类器,除了主要区域承载更多权重,次要区域每个区域对最终预测分数的贡献很小。

Yaw Lin的回答包含了很多信息,我将以他在上一段中所说的话为基础。我认为你想做的本质不是独立处理人和背景并比较结果(这显然是你说你正在做的),而是首先处理背景并从中推断出你对主要区域的期望。获得一些期望后,可以将主要区域与最重要的期望进行比较。

例如,从Arxiv链接中的图1(b)中,如果您可以处理背景并确定它在人口稠密地区的户外,那么您可以集中精力计算该人在社交户外活动中所做的事情的概率密度函数,使慢跑更有可能在您处理您感兴趣的数字之前作为猜测。相比之下,对于图1(a),如果你能处理背景并告诉它在室内并且包含计算机,那么你就可以将概率集中在单独的室内基于计算机的活动上,从而使"在计算机上工作"的概率飙升。

最新更新