CVPR2019论文,旷视的事实语义分割。CSDN1、CSDN2有相关讲解,可参考。
现有实时语义分割算法通过限制input image大小或者是进行冗余channel剪枝进行加速。现有网络在特征重用上做的并不是很好,割裂了深层特征和浅层特征的融合机制。
本文采用的网络模型结构如下图:横向的三层淡蓝色的结构代表三个级联的backbone,可视作encoder,最后一行是decoder部分。文章中关注的是encoder中的特征聚合方式,主要包括两点:sub-network aggregation、sub-stage aggregation,下面结合这张图说明。
看了这个图感觉就像是连连看。可能对本质的分析和改进还不是那么那么充分。我还需要再看看那些经典的backbone吧.
知乎有xiangyu zhang在valse2019上的报告总结,可以参看