arxiv201901的论文,关注于人像分割。与通用语义分割任务相比,Portrait分割需要更高的精度和更快的速度。现有方法问题主要有下面几个:
- 首先是数据集,即使是标注的比较好的数据集,在人物边缘区域仍然不能将细节标注出来,这样的监督网络学不到;
- 再有就是现在的肖像分割网络用的backbone输出的size小,不能刻画fine detail
论文也采用分支结构,但是两个分支没有完全割裂开。low-level branch is guided by high-level branch via a boundary attention map。
论文认为,没有边界的区域应该使用大感受野获得全局语义信息;有边界区域应该使用小感受野关注局部特征。网络结构如图所示:
Segmentation Loss:BCE loss
Boundary Attention Loss:BA loss,BCE loss
Refine Loss:The first part Lcos uses cosine distance to supervise the gradient direction of segmentation confidence map, Lmag brings a constrain on gradient magnitude to inforce the network produce clear and sharp results.
总的loss是三者加权和。
值得注意的是,refine loss 需要图像梯度。论文作者使用 a Gradient Calculation Layer(GCL) 在GPU上计算, Sobel 描述符作为滤波器。
代码实现的loss可以参考第三方实现:https://github.com/suruoxi/BANet/blob/master/loss.py