发布时间:2020-12-06 15:20:36来源:机器之心
选自arXiv
作者:ZhanghanKe等
机器之心编译
编辑:魔王
没有绿幕怎么抠图?此前,华盛顿大学的研究人员提出用背景图替换trimap,不用绿幕也能实现不错的抠图结果。但该方法需要处理和对齐原始图像和背景图两张图像,不便于现实应用。近日,香港城市大学和商汤提出一种新型人像抠图方法MODNet,不用绿幕、只用单张图像、单个模型即可实时完成人像抠图。
人像抠图即预测一个精确的前景蒙版(alphamatte),然后利用它从给定图像或视频中提取人物。这一技术得到了广泛的应用,如照片编辑、电影再创作等。目前,实时获得高质量前景蒙版仍需要绿幕的辅助。
但如果没有绿幕呢?目前大部分抠图方法使用预定义trimap作为先验。但,trimap需要人类标注,所需成本高昂,并且如果是通过深度相机捕获,还会出现低精度问题。因此,近期的一些工作尝试消除模型对trimap的依赖,即trimap-free方法。例如,华盛顿大学提出的方法用分离背景图像来替代trimap。其他方法使用多个模型先生成伪trimap或语义掩码,然后将其作为先验进行前景蒙版预测。但使用背景图像作为输入需要输入并对齐两张图像,使用多个模型会使推断时间显著增加。这些缺陷使得前述所有抠图方法不适用于现实应用,如相机预览。此外,受到标注训练数据不足的限制,trimap-free方法在实践中常遇到域偏移问题,即模型无法很好地泛化至现实数据。
能不能只用一个模型、一张RGB图像,来预测精确的前景蒙版呢?最近,香港城市大学和商汤合作提出了一种轻量级网络MODNet,它将人像抠图任务分解成三个相关的子任务,并通过特定约束执行同步优化。
先来看一下MODNet的抠图效果:
MODNet模型背后存在两种洞见:
一,神经网络更擅长学习一组简单目标,而不是一个复杂目标。因此,解决多个抠图子目标可以实现更好的性能。
二,对每个子目标应用显式监督信号,可以使模型的不同部分学习解耦的知识,从而实现一个模型解决所有子目标。
为了克服域迁移问题,该研究基于子目标一致性(SOC)提出了一种自监督策略,即利用子目标之间的一致性来减少预测前景蒙版中的伪影。此外,该研究还提出单帧延迟(OFD)trick这种后处理方法,以在视频抠图应用中获得更流畅的输出。MODNet框架参见下图:
相比trimap-free方法,MODNet具备以下优势:
MODNet更快:它专为实时应用而设计,输入大小为512×512时,MODNet在NvidiaGTX1080TiGPU上的运行速度为63fps;
MODNet获得了新的SOTA结果,原因在于:1)目标分解和同步优化;2)对每个子目标应用特定的监督信号;
MODNet具备更好的泛化能力,这得益于SOC策略。
尽管MODNet的结果没有超过那些基于trimap的方法,但实验表明MODNet在实际应用中更加稳定,原因就在于其移除了trimap输入。该方法对实时人像抠图任务中绿幕的必要性提出了挑战。
现有开源人像抠图数据集的规模或精度均有一定限制,之前很多研究是在质量和难度等级不同的私人数据集上进行模型训练和验证的。这就使得不同方法的对比变得困难。而这项研究在统一的标准下评估现有的trimap-free方法:所有模型均在相同数据集上训练完成,并在来自AdobeMatting数据集和该研究提出的新基准数据集的人像数据中执行验证。研究人员表示,他们提出的新基准完成了高质量标注,多样性也优于之前的基准,因而能够更全面地反映出抠图性能。
总之,这项研究提出了新型网络架构MODNet,可实时完成trimap-free人像抠图。研究者还提出了两项技术SOC和OFD,使MODNet能够很好地泛化至新的数据领域,视频抠图质量更加平滑。此外,该研究还构建了新的人像抠图验证基准数据集。
MODNet方法
基于多个模型的方法表明,「将trimap-free抠图看作trimap预测(分割)步骤加上基于trimap的抠图步骤」能够实现更好性能。这表明,神经网络从分解复杂目标中受益。于是,该研究将这一思路继续扩展,将trimap-free抠图目标分解为语义估计、细节预测和语义-细节融合三个子目标。直观来看,语义估计输出粗糙的前景掩码,细节预测生成细粒度的前景边界,而语义-细节融合则将这二者的特征进行混合。
如图2所示,MODNet包含三个分支,每一个均通过特定约束学习不同的子目标。具体而言:
低分辨率分支用于估计人类语义(监督信号是真值蒙版的缩略图);
高分辨率分支用于辨别人像边界(监督信号是过渡区域(α∈(0,1));
融合分支用来预测最终的前景蒙版(监督信号是整个真值蒙版)。
实验
该研究创建了新型人像抠图基准PPM-100,并在其上对比了MODNet和现有的人像抠图方法,还证明了SOC和OFD策略对于MODNet适应现实数据的有效性。
PPM-100基准
该研究提出了新型人像抠图基准PhotographicPortraitMattingbenchmark(PPM-100),包含100张精心标注、背景不同的人像。如下图4所示,PPM-100中的样本背景更加自然、人物姿势更丰富,因此数据也更全面。
在PPM-100上的性能结果
研究者在PPM-100上对比了MODNet和FDMPA、LFM、SHM、BSHM、HAtt,结果参见下表1。从中可以看出,MODNet在MSE和MAD这两项指标上超过其他trimap-free方法,但仍逊色于基于trimap的DIM方法。将MODNet修改为基于trimap的方法后,其性能超过DIM。
下图展示了不同方法的效果对比情况:
从中可以看出,MODNet可以更好地处理空心结构(第一行)和头发细节(第二行),但在处理难度较大的姿势或服饰时仍然会出现问题(第三行)。
在现实数据上的性能结果
下图展示了MODNet在现实数据上的抠图效果,从图中可以看出SOC对于模型在现实数据上的泛化能力非常重要,OFD可以进一步使输出结果更加平滑。
MODNet不基于trimap,因而能够避免错误trimap的问题。图8展示了MODNet与基于trimap的DIM方法的对比结果:
此外,研究者还对比了MODNet和华盛顿大学提出的backgroundmatting(BM)方法,参见图9。从图中可以看出,当移动对象突然出现在背景中时,BM方法的结果会受到影响,而MODNet对此类扰动具备鲁棒性。
论文链接:https://arxiv.org/pdf/2011.11961.pdf
项目地址:https://github.com/ZHKKKe/MODNet
一场属于蓉城的“鲜香”盛宴,DevRun开发者沙龙邀您开启“麻辣”开发之旅
行至西南,遇见成都。
12月12日,DevRun开发者沙龙华为云成都专场将带你逐一解锁:AI开发与云原生DevOps的进阶之旅、华为云技术专家面对面的教学指导、技术瓶颈突破与核心效能提升的关键要义以及拥抱变革与自我进阶的最佳姿势。精彩不容错过!
识别二维码,立即报名。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com