发布时间:2021-12-18 14:53:19来源:机器之心
机器之心报道
编辑:泽南、小舟
「深度神经网络非常难以训练,我们提出的残差网络框架使得神经网络的训练变得容易很多。」文章摘要的开头如今已被无数研究者们细细读过。
这是一篇计算机视觉领域的经典论文。李沐曾经说过,假设你在使用卷积神经网络,有一半的可能性就是在使用ResNet或它的变种。
前几天,人们发现ResNet论文被引用数量悄然突破了10万加,距离论文的提交刚过去六年。
《DeepResidualLearningforImageRecognition》在2016年拿下了计算机视觉顶级会议CVPR的最佳论文奖,相比NeurIPS最高热度论文《AttentionisAllYouNeed》,ResNet的被引数多出了几倍。这一工作的热度如此之高,不仅是因为ResNet本身的久经考验,也验证了AI领域,特别是计算机视觉如今的火热程度。
论文链接:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf
该论文的四位作者何恺明、张祥雨、任少卿和孙剑如今在人工智能领域里都是响当当的名字,当时他们都是微软亚研的一员。微软亚研是业内为数不多的,能够获得科技巨头持续高投入的纯粹学术机构。
说道论文本身,残差网络是为了解决深度神经网络(DNN)隐藏层过多时的网络退化问题而提出。退化(degradation)问题是指:当网络隐藏层变多时,网络的准确度达到饱和然后急剧退化,而且这个退化不是由于过拟合引起的。
假设一个网络A,训练误差为x。在A的顶部添加几个层构建网络B,这些层的参数对于A的输出没有影响,我们称这些层为C。这意味着新网络B的训练误差也是x。网络B的训练误差不应高于A,如果出现B的训练误差高于A的情况,则使用添加的层C学习恒等映射(对输入没有影响)并不是一个平凡问题。
为了解决这个问题,上图中的模块在输入和输出之间添加了一个直连路径,以直接执行映射。这时,C只需要学习已有的输入特征就可以了。由于C只学习残差,该模块叫作残差模块。
此外,和当年几乎同时推出的GoogLeNet类似,它也在分类层之后连接了一个全局平均池化层。通过这些变化,ResNet可以学习152个层的深层网络。它可以获得比VGGNet和GoogLeNet更高的准确率,同时计算效率比VGGNet更高。ResNet-152可以取得95.51%的top-5准确率。
ResNet网络的架构和VGGNet类似,主要包括3x3的卷积核。因此可以在VGGNet的基础上在层之间添加捷径连接以构建一个残差网络。下图展示了从VGG-19的部分早期层合成残差网络的过程。
ResNet的部分结构。很多人说,何恺明的论文非常易懂,光看插图就能读懂思想。
ResNet因其强大的表征能力,除图像分类以外,包括目标检测和人脸识别在内的许多计算机视觉应用都得到了性能提升。自2015年问世以后,领域内许多研究者都试图对该模型做出一些改进,以衍生出一些更适合特定任务的变体。这也是ResNet超高引用量的重要原因之一。
在ResNet引用突破十万大关时,另一篇经典论文,2012年的AlexNet被引量也突破了十万。
AlexNet是2012年ImageNet竞赛冠军获得者AlexKrizhevsky设计的卷积神经网络,最初是与CUDA一起使用GPU支持运行的。该网络的错误率与前一届冠军相比减小了10%以上,比亚军高出10.8个百分点。图灵奖获得者GeoffreyHinton也是AlexNet的作者之一,多伦多大学SuperVision组的IlyaSutskever是第二作者。
论文链接:https://papers.nips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
Alexnet网络包含6000万个参数和65000万个神经元,8层结构中包含5层卷积层和3层全连接层。Alexnet首次在卷积神经网络中成功应用了ReLU、Dropout和LRN等Trick。
一篇CVPR2016的文章,和一篇NeurIPS2012的文章双双突破10万引用,凸显了AI领域近年来的火热。另外值得一提的是,AlexNet是2012年ImageNet图像识别竞赛的冠军,而ResNet是2015年的冠军。
根据GoogleScholar的统计,ResNet第一作者何恺明(KaimingHe)一共发表了69篇论文,HIndex数据为59。
何恺明是我们耳熟能详的AI领域研究者。2003年他以标准分900分获得广东省高考总分第一,被清华大学物理系基础科学班录取。在清华物理系基础科学班毕业后,他进入香港中文大学多媒体实验室攻读博士学位,师从汤晓鸥。何恺明曾于2007年进入微软亚洲研究院视觉计算组实习,实习导师为孙剑。2011年博士毕业后,他加入微软亚洲研究院工作,任研究员。2016年,何恺明加入Facebook人工智能实验室,任研究科学家至今。
何恺明的研究曾数次得奖,他曾于2009年拿到国际计算机视觉顶会CVPR的BestPaper,2016年再获BestPaper奖,2021年有一篇论文是最佳论文的候选。何恺明还因为MaskR-CNN获得过ICCV2017的最佳论文(MarrPrize),同时也参与了当年最佳学生论文的研究。
他最近一次被人们关注的研究是11月份的,提出了一种泛化性能良好的计算机视觉识别模型,有望为CV的大模型带来新方向。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com