单块GPU实现4K分辨率每秒30帧，华盛顿大学实时视频抠图再升级，毛发细节到位

发布时间：2020-12-16 17:58:01来源：机器之心

机器之心报道

作者：魔王、杜伟、小舟

实时运行、使用单块英伟达RTX2080TIGPU即可以实现HD60fps和4K30fps的速度，那个「」的抠图方法BackgroundMatting发布了2.0版本，为用户提供了更自然更快速的实时背景替换效果。

背景替换是电影特效中的关键一环，在Zoom、GoogleMeet和MicrosoftTeams等视频会议工具中得到广泛应用。除了增加娱乐效果之外，背景替换可以增强隐私保护，特别是用户不愿在视频会议中向他人分享自身位置以及环境等细节时。而这面临着一项关键挑战：视频会议工具的用户通常无法获得电影特效背景替换所使用的绿幕或其他物理条件。

为了使用户更方便地替换背景，研究人员陆续开发了一系列抠图方法。今年4月份，华盛顿大学研究者提出了backgroundmatting方法，不在绿幕前拍摄也能完美转换视频背景，让整个世界都变成你的绿幕。但是，这项研究无法实现实时运行，只能以低帧率处理低分辨率下（512×512）的背景替换，有很多需要改进的地方。

八个月过去，这些研究者推出了backgroundmatting2.0版本，并表示这是一种完全自动化、实时运行的高分辨率抠图方法，分别以30fps的帧率在4k（3840×2160）和60fps的帧率在HD（1920×1080）图像上实现SOTA结果。

先来看一些效果展示场景：

非常自然流畅的背景替换。

这位小哥将自己乱糟糟的房间背景替换成了下雪场景。

不过该方法也有「翻车」的时候，在下图替换背景中都出现了明显的锐化阴影（sharpshadow）。

BackgroundMatting2.0版本有哪些改进？

BackgroundMatting2.0相较1.0版本有哪些技术改进呢？我们都知道，设计一个对高分辨率人物视频进行实时抠图的神经网络极具挑战性，特别是头发等细粒度细节特别重要的情况。1.0版本只能以8fps的帧率实现512×512分辨率下的背景替换。若要在4K和HD这样的大分辨率图像上训练深度网络，则运行会非常慢，需要的内存也很大。此外，它还需要大量具备高质量前景蒙版（alphamatte）的图像以实现泛化，然而公开可用的数据集也很有限。

收集具有大量手动制作前景蒙版的高质量数据集难度很大，因此该研究想要通过一系列具有不同特性的数据集来训练网络。为此，他们创建了两个数据集VideoMatte240K和PhotoMatte13K/85，二者均包含高分辨率前景蒙版以及利用色度键软件提取的前景层。研究者首先在这些包含显著多样化人体姿势的较大型前景蒙版数据集上训练网络以学习鲁棒性先验，然后在手动制作的公开可用数据集上继续训练以学习细粒度细节。

此外，为了设计出能够实时处理高分辨率图像的网络，研究者观察发现图像中需要细粒度细化的区域相对很少。所以他们提出了一个base网络，用来预测低分辨率下的前景蒙版和前景层，并得到误差预测图（以确定哪些图像区域需要高分辨率细化）。然后refinement网络以低分辨率结果和原始图像作为输入，在选定区域生成高分辨率输出。

结果表明，BackgroundMatting2.0版本在具有挑战性的真实视频和人物图像场景中取得了SOTA的实时背景抠图结果。研究者还将公布VideoMatte240K和PhotoMatte85数据集以及模型实现代码。

论文地址：https://arxiv.org/pdf/2012.07810.pdf

项目主页：https://grail.cs.washington.edu/projects/background-matting-v2/

数据集

该研究使用了多个数据集，包括研究人员创建的新型数据集和公共数据集。

公共数据集

AdobeImageMatting（AIM）数据集提供了269个人类训练样本和11个测试样本，平均分辨率约为1000×1000。该研究还使用了Distinctions646数据集的humans-only子集，包含362个训练样本和11个测试样本，平均分辨率约为1700×2000。这些数据集中蒙版均为手动创建，因此质量较高。但训练样本数量较少，无法学习多样化的人类姿势和高分辨率图像的精细细节，于是研究人员创建了两个新的数据集。

新型数据集VideoMatte240K和PhotoMatte13K/85

VideoMatte240K数据集：研究者收集了484个高分辨率绿幕视频（其中384个视频为4K分辨率，100个HD分辨率），并使用色度键工具AdobeAfterEffects生成240709个不同的前景蒙版和前景帧。

PhotoMatte13K/85数据集：研究人员收集了13665张图像，这些图像是用演播室质量的照明和相机在绿幕前拍摄的，并通过带有手动调整和误差修复的色度键算法提取蒙版。

下图展示了这两个数据集中的样本示例：

方法

给定图像I和捕获背景B，该研究提出的方法能够预测前景蒙版α和前景F。

具体而言，该方法通过I'=αF+(1−α)B'基于新背景进行合成（B'为新背景）。该方法没有直接求解前景，而是求解前景残差F^R=F−I。然后通过向输入图像I添加F^R来恢复F：F=max(min(F^R+I,1),0)。研究人员发现该公式可以改善学习效果，并允许通过上采样将低分辨率前景残差应用到高分辨率输入图像上。

使用深层网络会直接导致大量计算和内存消耗，因此高分辨率图像抠图极具挑战性。如图4所示，人类蒙版通常非常稀疏，其中大块像素区域属于背景（α=0）或前景（α=1），只有少数区域包含较精细的细节（如头发、眼镜、人体轮廓）。因此该研究没有设计在高分辨率图像上直接运行的网络，而是提出了两个网络：一个基于较低分辨率图像运行，另一个基于先前网络的误差预测图选择图像块（patch），仅在这些图像块上以原始分辨率运行。

该架构包含base网络G_base和refinement网络G_refine。

给出原始图像I和捕捉背景图B，该方法首先使用因子c对图像I和B执行下采样，得到I_c和B_c。然后base网络G_base以I_c和B_c为输入，预测粗粒度前景蒙版α_c、前景残差F^R_c、误差预测图E_c和隐藏特征H_c。紧接着refinement网络G_refine使用H_c、I和B在预测误差E_c较大的区域中细化α_c和F^R_c，得到原始分辨率的蒙版α和前景残差F^R。

该模型为全卷积模型，可以处理任意大小和长宽比的图像。

架构图。

base网络

该方法的base网络是一个受DeepLabV3和DeepLabV3+启发的全卷积编码器-解码器网络，包含三个主要模块：骨干网络、ASPP和解码器。

研究者采用ResNet-50作为编码器骨干网络，它可以被替换为ResNet-101和MobileNetV2以实现速度和质量之间的权衡。

和DeepLabV3方法一样，该方法在骨干网络之后采用了ASPP（空洞空间金字塔池化）模块，该模块包含多个空洞卷积滤波器，扩张率分别为为3、6、9。

解码器网络在每一步均使用了双线性上采样，结合来自骨干网络的残差连接（skipconnection），并使用3×3卷积、批归一化和ReLU激活函数（最后一层除外）。解码器网络输出粗粒度的前景蒙版α_c、前景残差F^R_c、误差预测图E_c和32通道的隐藏特征H_c。H_c包含的全局语境将用于refinement网络中。

refinement网络

refinement网络的目标是减少冗余计算并恢复高分辨率的抠图细节。base网络在整个图像上运行，而refinement网络仅在基于误差预测图E_c选择的图像块上运行。refinement网络包括两个阶段：先以原始分辨率的1/2进行细化，再用全分辨率细化。在推断过程中，该方法细化k个图像块，k可以提前设置，也可以基于权衡图像质量和计算时间的阈值进行设置。

实验

该研究将这一方法与基于trimap的两种方法DeepImageMatting、FBAMatting(FBA)和基于背景图像的方法BackgroundMatting(BGM)进行对比。

在合成数据集上的评估结果

下表1展示了这些方法在不同数据集上的量化评估结果。从中可以看出，该研究提出的方法在所有数据集上均优于基于背景的BGM方法，但略逊于当前最优的trimap方法FBA，FBA需要人工精心标注的trimap且速度比该研究提出的方法慢。

在现实数据上的评估结果

该研究还对比了这些方法在真实数据上的性能。从下图中可以看出，该研究方法的生成结果在头发和边缘方面更加清晰和详细。

该研究邀请40位参与者评估该方法与BGM的生成效果，结果参见下表2。从中可以看出该方法较BGM有显著提升。59%的参与者认为该算法更好，而认为BGM更好的参与者比例仅为23%。在4K及更高分辨率的样本中，认为该方法更好的参与者比例更是高达75%。

性能对比

下表3和表4表明该方法比BGM小但速度更快。

该方法的参数量仅为BGM的55.7%。但它在批大小为1的情况下，使用一块英伟达RTX2080TIGPU就能够实现HD60fps和4K30fps的速度，可用于很多实时应用。相比之下，BGM只能以7.8fps的速度处理512×512分辨率图像。

将该方法的骨干网络换成MobileNetV2后，其性能得到了进一步提升，实现了HD100fps和4K45fps。

实际使用

研究人员将此方法应用到了Zoom视频会议和抠图这两种场景中。

在Zoom实现中，研究人员构建了拦截摄像头输入的Zoom插件，收集一张无人的背景图，然后执行实时视频抠图和合成，在Zoom会议中展示结果。研究人员使用720p摄像头在Linux中进行了测试，实际效果很好。

此外，研究人员对比了该方法和绿幕色度抠图的效果，发现在光照不均匀的环境下，该方法的效果胜过专为绿幕设计的方法，如下图所示：

本周日，在北京有一场属于开发者的冬日狂欢。

王海峰、朱军、李宏毅等AI大咖畅聊产业、人才与开源。

30场技术公开课干货满满。

伴手礼人手一份，互动展区还有众多礼品等你来拿。

DJ、乐队、街舞、脱口秀同台AI狂欢夜。

12月20日，798大罐等你。点击阅读原文，立即报名。

©THEEND

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

评论收藏

单块GPU实现4K分辨率每秒30帧，华盛顿大学实时视频抠图再升级，毛发细节到位

刚刚！A股又一千元股诞生，疯狂的“石头”如此进击！

鸿蒙OS手机版正式发布！副总裁现场表态：我们已经准备好了

《2020网络安全态势感知应用指南》发布

数智农业，联通未来！广东联通亮相2020世界数字农业大会

编写贩卖《和平精英》游戏外挂，5人被判刑；苹果推出轻App码；Firefox 84.0发布|极客头条

【报告】2020年中国智能互联-汽车产业变革研究（附71页PDF文件下载）

苹果 2021 上半年或生产 9600 万部 iPhone；多家共享电单车企业被约谈；映客回购 19.5 万股｜Do早报