影视聚合站 科技 文章内容

击败酷睿i9之后,有人又拿苹果M1去挑战英伟达V100了

发布时间:2021-01-18 16:58:02来源:机器之心

选自vanpelt

作者:ChrisVanPelt

机器之心编译

机器之心编辑部

有工程师用M1版MacMini训练小架构深度学习模型,结果好像还可以。

众所周知,大多数Mac产品都是生产力工具,你甚至可以用它们训练神经网络。去年11月推出的,搭载M1芯片的Mac更是将这种生产力水平提到了一个新的高度。

那么,如果拎出来和专业的比一下,M1版的Mac在训练模型方面是个什么水平?为了解答这个疑问,最近有人将M1版的MacMini与NvidiaV100放到一起比了一下。

M1版MacMini的售价最低是5000元左右。此前,国外知名硬件评测网站anandtech发布了对这款产品的,结果显示,在CPU性能测试中,M1版MacMini的单线程和多线程都很优秀。在GPU性能测试中,它在多个基准测试中超越了之前的Mac系列产品,在某些情况下还能超越独显产品。

NvidiaV100则是专业的AI训练卡,单精度浮点性能达到15TFLOPS,双精度浮点7.5TFLOPS,显存带宽900GB/s,售价高达五位数。当然,你可以选择在Colab上租用。

评测者是「WeightsandBiases」公司的联合创始人ChrisVanPelt。WeightsandBiases简称W&B,是一家致力于机器学习工具开发的公司。

为了进行这次测试,作者设计了8种不同的训练设置。结果显示,对于较小的架构和数据集,苹果M1的性能与NvidiaV100的差距并没有想象中那么大,而且在能效等方面表现要更为出色。

注意:本文中的图均为交互图,可以根据文末的参考链接查找原图。

测评方法

在测评中,作者用Cifar10数据集训练了一个MobileNetV2架构的计算机视觉模型。V100的测评是在colab上进行的,16GBM1MacMini的训练所用框架来自苹果的tensorflow_macos库。他们使用W&BSweeps(一款超参数搜索和模型优化工具)来设置以下超参数:

当「trainable」为「false」时,他们只训练网络中的最后一层。当「trainable」为「true」时,他们会更新MobileNetV2中的所有权重。

可以看到,当要训练的权重减少时,M1的性能提升更为明显,这可能是因为M1的内存架构比较好。

能耗

本次测评所使用的M1MacMini是16GB版本。在测试期间,作者表示没有听到风扇的声音,机箱也很凉。值得注意的是,要达到相同的计算量,M1的能耗要小得多。不过两款芯片不是一个年代的产品:M1是5nm制程的,2017年推出的V100采用12nm,虽然存在制程上的差距,但即使考虑到这点,后者的能耗也非常惊人,几乎达到了前者的6倍。

说明

设置MacMini来运行新的加速Tensorflow包并不容易。作者发现,获得各种需要编译的包最简单的方法是从Miniconda的arm64分支(https://conda-forge.org/blog/posts/2020-10-29-macos-arm64/)。默认情况下,这个TensorFlow库应该选择最佳加速路径,但作者却发现了一些段错误,除非利用以下代码明确告诉这个库使用GPU。

fromtensorflow.python.compiler.mlcomputeimportmlcomputemlcompute.set_mlc_device(device_name="gpu")

作者表示,他选择MobileNetV2是为了迭代更快。当尝试ResNet50或其他更大的模型时,M1和V100的差距逐渐拉大。当输入大于196x196维时,他在M1上也经历了段错误。

总的来说,这些入门级的Mac还只适合较小的架构。

在训练过程中,作者还观察到,在只训练网络最后一层时,M1上的模型没有收敛,而V100上就不会出现这种情况。在进一步的实验中,作者通过降低学习率解决了这个问题。但是,目前仍不清楚M1MacMini为何对学习率如此敏感。

M1MacMini的情况。

NvidiaV100的情况。

结论

目前,苹果自研的M系列芯片还处在早期阶段,但初步评测看起来很有希望。当苹果发布拥有更多内核和RAM的Pro系列产品时,在苹果设备上训练机器学习模型会变得更加日常。

既然不少程序员都在使用MacBook写代码,那么在未来用苹果来跑深度学习是不是也应该变得流行起来呢?希望这是一个好的开始。

参考链接:https://wandb.ai/vanpelt/m1-benchmark/reports/Can-Apple-s-M1-help-you-train-models-faster-cheaper-than-NVIDIA-s-V100---VmlldzozNTkyMzg

Nature论文线上分享|世界最快光子AI卷积加速器

世界最快光子AI卷积加速器登上Nature,该研究展示的是一种"光学神经形态处理器",其运行速度是以往任何处理器的1000多倍,该系统还能处理创纪录大小的超大规模图像——足以实现完整的面部图像识别,这是其他光学处理器一直无法完成的。

1月18日19:00,论文一作、莫纳什大学研究员徐兴元博士带来线上分享,详细介绍他们的工作以及光学芯片领域进展。

添加机器之心小助手(syncedai5),备注「光子」,进群一起看直播。

©THEEND

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

© 2016-2017 ysjhz.com Inc.

站点统计| 举报| Archiver| 手机版| 小黑屋| 影视聚合站 ( 皖ICP备16004362号-2 )