CVPR2019论文,同样是将单帧模糊图片转换为高清视频。应该说是follow之前CVPR2018的工作,做了不少的改进。
之前那篇做I2V的论文,因为loss设计和网络训练的原因,不能Handel大运动、大blur,这篇文章解决了之前的问题,并且通过隐性学习temporal order,可以直接生成whole sequence。
网络整体的pipeline如图,
在训练的时候,网络的RVE部分先使用高清的多帧进行学习,学习得到的tensor表示视频的运动信息(后面将这个运动信息用于RVD的初始化)。RVD网络用于估计光流,然后和中间帧(已知)进行warp操作。同时BIE网络用于单图deblur(需要利用RVE的信息),网络的权重需要满足BIE(xB) ≈ RVE(x1..N)
RVE、BIE结构如图,
这里使用multi-scale的方式估计光流,如图
在测试时没有清晰的中间帧,更没有前后帧,使用如图网络对中间帧进行deblur