【论文阅读】Spatiotemporal CNN for Video Object Segmentation

CVPR2019论文。

时间相关分支学习时空判别特征以捕获视频序列的动态外观和运动线索，而不是使用光流。同时，空间分割分支是完全卷积网络，其被设计为利用来自时间相关分支的时间约束来分割对象。

（1）时间相关分支：

如STCNN模型图所示。文中构建的基于主干ResNet-101网络的时间相关分支，其中输入的信道数为3δ。也就是说，我们连接先前的δ帧并将它们馈入时间相关分支以进行预测。之后，使用三个反卷层，内核大小为3×3。为了保留每个分辨率中的时空信息，我们使用三个跳过连接来连接低层特征。内核大小为1×1的卷积层用于压缩特征以提高效率。值得注意的是，每个卷积或反卷积层之后是批量标准化层和用于非线性的ReLU层。

（2）空间分割分支

通过将最后两个残差块（即res4和res5）中的卷积层替换为步长为 1 的空洞卷积层，构建基于ResNet-101网络的空间分割分支，旨在保留分割精度的高分辨率。然后，使用PPM模块通过基于不同区域的上下文聚合来利用全局上下文信息，然后使用设计的三个注意模块（如下图）来优化预测。也就是说，按顺序在多尺度特征图上应用注意模块，以帮助网络聚焦于对象区域并忽略背景区域。之后，连接多尺度特征图，然后是3×3卷积层以产生最终预测。

图中S_t表示当前阶段的分段遮罩。首先使用元素添加来利用高级上下文，并连接时间相关特征以集成时间约束。之后，我们使用来自先前粗尺度特征图的预测掩模来引导网络的注意力，即，使用逐元素乘法来掩蔽当前阶段中的特征图。设St为当前阶段的预测掩模。我们在元素方面将St乘以特征映射，并将其添加到用于预测的连接特征中。以这种方式，增强了对象区域周围的特征，这使得网络逐渐集中于对象区域以获得准确的结果。