【论文阅读】A Simple Pooling-Based Design for Real-Time Salient Object Detection

CVPR2019论文,关注实时显著性检测。CSDN网站有讲解,可参考。

在U型结构的特征网络中,高层富含语义特征捕获的位置信息在自底向上的传播过程中可能会逐渐被稀释;在[Pyramid scene parsing network]所指出的,CNN的感受野大小与其层深度不成比例。现有方法通过将注意机制引入U形结构,以循环方式细化特征图,结合多尺度特征信息来解决上述问题,或者在显着性图中添加额外约束,如[Non-local deep features for salient object detection]中的边界损失项。【这里好像MopNet就是类似的方法】

GGM(全局引导模块)

我们知道高层语义特征对挖掘显著对象的详细位置是很有帮助的,但是中低层的语义特征也可以提供必要的细节。因为在 top-down 的过程中,高层语义信息被稀释,而且实际上的感受野也是小于理论感受野,所以对于全局信息的捕捉十分的缺乏,导致显著物体被背景吞噬。

因此作者提出了 GGM 模块,GGM 其实是 PPM(Pyramid Pooling module,金字塔池化模块)的改进并且加上了一系列的 GGFs(Global Guiding Flows,全局引导流),这样做的好处是,在特征图上的每层都能关注到显著物体,另外不同的是,GGM 是一个独立的模块,而 PPM 是在 U 型架构中,在基础网络(backbone)中参与引导全局信息的过程。

其实这部分论文说得并不是很清晰,没有说 GGM 的详细结构,我们可以知道 PPM [7] 的结构如下:

该 PPM 模块融合了 4 种不同金字塔尺度的特征,第一行红色是最粗糙的特征–全局池化生成单个 bin 输出,后面三行是不同尺度的池化特征。为了保证全局特征的权重,如果金字塔共有 N 个级别,则在每个级别后使用 1×1 的卷积将对于级别通道降为原本的 1/N。再通过双线性插值获得未池化前的大小,最终 concat 到一起。

如果明白了这个的话,其实 GGM 就是在 PPM 的结构上的改进,PPM 是对每个特征图都进行了金字塔池化,所以作者说是嵌入在 U 型结构中的,但是他加入了 global guiding flows(GGFs),即 Fig1 中绿色箭头,引入了对每级特征的不同程度的上采样映射(文中称之为 identity mapping),所以可以是个独立的模块。简单地说,作者想要 FPN 在 top-down 的路径上不被稀释语义特征,所以在每次横向连接的时候都加入高层的语义信息,这样做也是一个十分直接主观的想法。

FAM(特征整合模块)

特征整合模块也是使用了池化技巧的模块,如下图,先把 GGM 得到的高层语义与该级特征分别上采样之后横向连接一番得到 FAM 的输入 b,之后采取的操作是先把 b 用 {2,4,8} 的三种下采样得到蓝绿红特征图然后 avg pool(平均池化)再上采样回原来尺寸,最后蓝绿红紫(紫色是 FAM 的输入 b)四个分支像素相加得到整合后的特征图。

FAM 有以下两个优点:

  • 帮助模型降低上采样(upsample)导致的混叠效应(aliasing);
  • 从不同的多角度的尺度上纵观显著物体的空间位置,放大整个网络的感受野。
    第二点很容易理解,从不同角度看,不同的放缩尺度看待特征,能够放大网络的感受野。对于第一点降低混叠效应的理解,用明珊师姐说的话,混叠效应就相当于引入杂质,GGFs 从基础网络最后得到的特征图经过金字塔池化之后需要最高是 8 倍上采样才能与前面的特征图融合,这样高倍数的采样确实容易引入杂质。作者就是因为这样才会提出 FAM,进行特征整合,先把特征用不同倍数的下采样,池化之后,再用不同倍数的上采样,最后叠加在一起。因为单个高倍数上采样容易导致失真,所以补救措施就是高倍数上采样之后,再下采样,再池化上采样平均下来可以弥补错误。

上图就是为了说明 FAM 的优点的,经过高倍上采样之后的图像(b)和(d)容易引入许多杂质,致使边缘不清晰,但是经过 FAM 模块之后的特征图就能降低混叠效应。【这里的可视化方法值得学习,可以用在论文中】

本文标题:【论文阅读】A Simple Pooling-Based Design for Real-Time Salient Object Detection

文章作者:Zeyuxiao

发布时间:2020年02月08日 - 13:02

最后更新:2020年02月21日 - 09:02

原始链接:https://zeyuxiao1997.github.io/2020/02/08/PoolNet/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。