影视聚合站 科技 文章内容

英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网

发布时间:2022-03-23 09:53:42来源:机器之心

机器之心报道

编辑;泽南、杜伟

黄仁勋:芯片每代性能都翻倍,而且下个「TensorFlow」级AI工具可是我英伟达出的。

每年春天,AI从业者和游戏玩家都会期待英伟达的新发布,今年也不例外。

北京时间3月22日晚,新一年度的GTC大会如期召开,英伟达创始人、CEO黄仁勋这次走出了自家厨房,进入元宇宙进行Keynote演讲:

「我们已经见证了AI在科学领域发现新药、新化合物的能力。人工智能现在学习生物和化学,就像此前理解图像、声音和语音一样。」黄仁勋说道「一旦计算机能力跟上,像制药这样的行业就会经历此前科技领域那样的变革。」

GPU发展引爆的AI浪潮从开始到今天还没过去十年,Transformer这样的预训练模型和自监督学习模型,已经不止一次出现「算不起」的情况了。

算力需求因为大模型呈指数级上升,老黄这次拿出的是面向高性能计算(HPC)和数据中心的下一代Hopper架构,搭载新一代芯片的首款加速卡被命名为H100,它就是A100的替代者。

Hopper架构的名称来自于计算机科学先驱GraceHopper,其延续英伟达每代架构性能翻倍的「传统」,还有更多意想不到的能力。

为GPT-3这样的大模型专门设计芯片

H100使用台积电5nm定制版本制程(4N)打造,单块芯片包含800亿晶体管。它同时也是全球首款PCI-E5和HBM3显卡,一块H100的IO带宽就是40terabyte每秒。

「为了形象一点说明这是个什么数字,20块英伟达H100带宽就相当于全球的互联网通信,」黄仁勋说道。

黄仁勋列举了Hopper架构相对上代安培的五大革新:

首先是性能的飞跃式提升,这是通过全新张量处理格式FP8实现的。H100的FP8算力是4PetaFLOPS,FP16则为2PetaFLOPS,TF32算力为1PetaFLOPS,FP64和FP32算力为60TeraFLOPS。

虽然比的1140亿晶体管数量要小一些,但H100的功率可以高达700W——上代A100还是400W。「在AI任务上,H100的FP8精度算力是A100上FP16的六倍。这是我们历代最大的性能提升,」黄仁勋说道。

图片来源:anandtech

Transformer类预训练模型是当前AI领域里最热门的方向,英伟达甚至以此为目标专门优化H100的设计,提出了TransformerEngine,它集合了新的TensorCore、FP8和FP16精度计算,以及Transformer神经网络动态处理能力,可以将此类机器学习模型的训练时间从几周缩短到几天。

Transformer引擎名副其实,是一种新型的、高度专业化的张量核心。简而言之,新单元的目标是使用可能的最低精度来训练Transformer而不损失最终模型性能。

针对服务器实际应用,H100也可以虚拟化为7个用户共同使用,每个用户获得的算力相当于两块全功率的T4GPU。而且对于商业用户来说更好的是,H100实现了业界首个基于GPU的机密计算。

Hopper还引入了DPX指令集,旨在加速动态编程算法。动态编程可将复杂问题分解为子问题递归解决,HopperDPX指令集把这种任务的处理时间缩短了40倍。

Hopper架构的芯片和HBM3内存用台积电CoWoS2.5D工艺封装在板卡上,形成「超级芯片模组SXM」,就是一块H100加速卡:

这块显卡拿着可得非常小心——它看起来整体异常紧凑,整个电路板上塞满各种元器件。另一方面,这样的结构也适用于液冷——H100设计700W的TDP已经非常接近散热处理的上限了。

自建全球第一AI超算

「科技公司处理、分析数据,构建AI软件,已经成为智能的制造者。他们的数据中心就是AI的工厂,」黄仁勋说道。

基于Hopper架构的H100,英伟达推出了机器学习工作站、超级计算机等一系列产品。8块H100和4个NVLink结合组成一个巨型GPU——DGXH100,它一共有6400亿晶体管,AI算力32petaflops,HBM3内存容量高达640G。

新的NVLINKSwithSystem又可以最多把32台DGXH100直接并联,形成一台256块GPU的DGXPOD。

「DGXPOD的带宽是每秒768terbyte,作为对比,目前整个互联网的带宽是每秒100terbyte,」黄仁勋说道。

基于新superPOD的超级计算机也在路上,英伟达宣布基于H100芯片即将自建一个名叫EoS的超级计算机,其由18个DGXPOD组成,一共4608个H100GPU。以传统超算的标准看,EoS的算力是275petaFLOPS,是当前美国最大超算Summit的1.4倍,Summit目前是基于A100的。

从AI计算的角度来看,EoS输出18.4Exaflops,是当今全球第一超算富岳的四倍。

总而言之,EoS将会是世界上最快的AI超级计算机,英伟达表示它将会在几个月之后上线。

下面看看H100在具体任务上的性能提升:单看GPU算力的话训练GPT-3速度提升6.3倍,如果结合新的精度、芯片互联技术和软件,提升增至9倍。在大模型的推理工作上,H100的吞吐量是A100的30倍。

对于传统服务器,英伟达提出了H100CNX,通过把网络与H100直接并联的方式绕过PCIE瓶颈提升AI性能。

英伟达更新了自家的服务器CPU,新的GraceHopper可以在同一块主板上两块并联,形成一个拥有144核CPU,功耗500W,是目前产品性能的2-3倍,能效比也是两倍。

在Grace上,几块芯片之间的互联技术是新一代NVlink,其可以实现晶粒到晶粒、芯片到芯片、系统到系统之间的高速互联。黄仁勋特别指出,GraceCPU与Hopper可以通过NVlink进行各种定制化配置。英伟达的技术可以满足所有用户需求,在未来英伟达的CPU、GPU、DPU、NIC和SoC都可以通过这种技术实现芯片端高速互联。

英伟达计划在今年三季度推出配备H100的系统,包括DGX、DGXSuperPod服务器,以及来自OEM合作伙伴使用HGX基板和PCIe卡服务器。

至于价格,昨天老黄并没有说「themoreyoubuy,themoreyousave.」

此前有传闻说专用于游戏的AdaLovelace架构,昨天并没有出现在黄仁勋的keynote中,看来还要再等等。

人人可见的元宇宙

「第一波AI学习了生物的预测推断能力,如图像识别、语言理解,也可以向人们推荐商品。下一波AI将是机器人:AI做出计划,在这里是数字人、物理的机器人进行感知、计划并行动,」黄仁勋说道。「TensorFlow和PyTorch等框架是第一波AI必须的工具,英伟达的Omniverse是第二波AI的工具,将会开启下一波AI浪潮。」

在元宇宙这件事上,英伟达可以说一直走在最前面,其提出的Omniverse是连接所有元宇宙的门户。但在以往,Omniverse是面向数据中心设计的,其中的虚拟世界偏向于工业界。

黄仁勋表示,英伟达的Omniverse涵盖了数字孪生、虚拟世界和互联网的下一次演进。下图为几种典型应用场景:

而对于数字孪生而言,Omniverse软件和计算机必须具备可扩展、低延迟和支持精确时间的特点。所以,创建同步的数据中心非常重要。基于此,英伟达推出了NVIDIAOVX——用于工业数字孪生的数据中心可扩展Omniverse计算系统。

第一代NVIDIAOVXOmniverse计算机由8个NVIDIAA40GPU、3个NVIDIAConnectX-6200Gbps网卡、2个IntelIceLake8362CPU以及1TB系统内存和16TBNVMe存储组成。

然后,英伟达利用Spectrum-3200Gpbs交换机连接32台OVX服务器构成了OVXSuperPOD。

目前,全球各大计算机制造商纷纷推出OVX服务器。第一代OVX正由英伟达和早期客户运行,第二代OVX也正从骨干网络开始构建当中。会上,英伟达宣布推出带宽高达51.2Tbps且带有1000亿个晶体管的Spectrum-4交换机,它可以在所有端口之间公平分配带宽,提供自适应路由和拥塞控制功能,显著提升数据中心的整体吞吐量。

凭借ConenctX-7和BlueField-3适配器以及DOCA数据中心基础架构软件,Spectrum-4成为世界上第一个400Gbps的端到端网络平台。与典型数据中心数毫秒的抖动相比,Spectrum-4可以实现纳秒级计时精度,即5到6个数量级的改进。黄仁勋表示,样机预计将于第四季度末发布。

说到元宇宙,则不得不提英伟达OmniverseAvatar平台。在本次GTC大会上,黄仁勋与「自己」(虚拟人)展开了一番对话。

同时,英伟达还希望Omniverse为设计师、创作者、AI研究人员提供帮助,因而推出了OmniverseCloud。只需点击几下,用户及其协作者可以完成连接。使用NVIDIARTXPC、笔记本电脑和工作站,设计师们可以实时协同工作。即使没有RTX计算机,他们也可以从GeForceNow上一键启动Omniverse。

比如下图中远程工作的几位设计师在网络会议中使用OmniverseView来评审项目,他们可以连接彼此,并唤出一个AI设计师。也即是,他们通过OmniverseCloud协作创建了一个虚拟世界。

在这场GTC大会上,黄仁勋打开了元宇宙的大门。

持续加注自动驾驶和电动汽车

既然机器人系统会是下一波AI浪潮,黄仁勋表示,英伟达正在构建多个机器人平台——用于自动驾驶汽车的DRIVE、用于操纵和控制系统的ISAAC、用于自主式基础架构的Metropolis和用于机器人医疗器械的Holoscan。这里只介绍DRIVE自动驾驶汽车系统。

机器人系统的工作流程很复杂,通常可以简化为四个支柱:收集和生成真值数据、创建AI模型、使用数字孪生进行仿真和操作机器人。Omniverse是整个工作流程的核心。

DRIVE自动驾驶汽车系统本质上是「AI司机」。与其他平台一样,NVIDIADRIVE是全栈式端到端平台,对开发者开放,他们可以使用整个平台或者其中一部分。在运行过程中,英伟达使用DeepMap高清地图等收集和生成真值数据,使用DGX上的NVIDIAAI来训练AI模型。Omniverse中的DRIVESim在OVX上运行,它属于数字孪生。DRIVEAV是一款运行在车载Orin计算平台上的自动驾驶应用。

在使用最新版DRIVE系统的实际行驶中,驾驶员可以启动DRIVEPilot导航,语音输入指令。信心视图(ConfidenceView)向车上的人展示汽车看到和打算要做的事。AI助手可以探测到特定的人,多模态AI助手可以回答驾驶员的问题,AI辅助停车可以检测可用的停车位,环绕视图(SurroundView)和高级可视化(AdvancedVisualization)方便驾驶员泊车。

所有这一切都离不开英伟达自动驾驶汽车硬件结构——Hyperion8,它也是整个DRIVE平台的构建基础。Hyperion8是由多个传感器、网络、两台ChauffeurAV计算机、一台ConciergeAI计算机、一个任务记录仪以及(网络)安全系统组成。它可以使用360度摄像头、雷达、激光雷达和超声波传感器套件实现全自动驾驶,并将分别从2024年起在梅赛德斯奔驰汽车、2025年起在捷豹路虎汽车中搭载。

DRIVESim中构建的Hyperion8传感器可以提供真实世界的视图。

今天,英伟达宣布Hyperion9将从2026年起在汽车上搭载。相较于前代,Hyperion9将拥有14个摄像头、9个雷达、3个激光雷达和20个超声传感器。整体而言,它处理的传感器数据量是Hyperion8的两倍。

在电动汽车领域,英伟达DRIVEOrin是理想汽车的集中式自动驾驶和AI计算平台。黄仁勋在会上宣布,Orin将于本月发售。不仅如此,比亚迪也将为2023年上半年投产的电动汽车搭载英伟达DRIVEOrin系统。

「Omniverse在英伟达AI和机器人领域的工作中非常重要,下一波AI浪潮需要这样的平台,」黄仁勋最后说道。

参考内容:https://www.anandtech.com/show/17327/nvidia-hopper-gpu-architecture-and-h100-accelerator-announced

©THEEND

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

© 2016-2022 ysjhz.com Inc.

站点统计| 举报| Archiver| 手机版| 小黑屋| 影视聚合站 ( 皖ICP备16004362号-1 )