英伟达新架构发布，AI芯片上限提升了九倍，20块带宽就等于全球互联网

影视聚合站› 科技› 文章内容

英伟达新架构发布，AI芯片上限提升了九倍，20块带宽就等于全球互联网

发布时间：2022-03-23 09:53:42来源：机器之心

机器之心报道

编辑；泽南、杜伟

黄仁勋：芯片每代性能都翻倍，而且下个「TensorFlow」级AI工具可是我英伟达出的。

每年春天，AI从业者和游戏玩家都会期待英伟达的新发布，今年也不例外。

北京时间3月22日晚，新一年度的GTC大会如期召开，英伟达创始人、CEO黄仁勋这次走出了自家厨房，进入元宇宙进行Keynote演讲：

「我们已经见证了AI在科学领域发现新药、新化合物的能力。人工智能现在学习生物和化学，就像此前理解图像、声音和语音一样。」黄仁勋说道「一旦计算机能力跟上，像制药这样的行业就会经历此前科技领域那样的变革。」

GPU发展引爆的AI浪潮从开始到今天还没过去十年，Transformer这样的预训练模型和自监督学习模型，已经不止一次出现「算不起」的情况了。

算力需求因为大模型呈指数级上升，老黄这次拿出的是面向高性能计算（HPC）和数据中心的下一代Hopper架构，搭载新一代芯片的首款加速卡被命名为H100，它就是A100的替代者。

Hopper架构的名称来自于计算机科学先驱GraceHopper，其延续英伟达每代架构性能翻倍的「传统」，还有更多意想不到的能力。

为GPT-3这样的大模型专门设计芯片

H100使用台积电5nm定制版本制程（4N）打造，单块芯片包含800亿晶体管。它同时也是全球首款PCI-E5和HBM3显卡，一块H100的IO带宽就是40terabyte每秒。

「为了形象一点说明这是个什么数字，20块英伟达H100带宽就相当于全球的互联网通信，」黄仁勋说道。

黄仁勋列举了Hopper架构相对上代安培的五大革新：

首先是性能的飞跃式提升，这是通过全新张量处理格式FP8实现的。H100的FP8算力是4PetaFLOPS，FP16则为2PetaFLOPS，TF32算力为1PetaFLOPS，FP64和FP32算力为60TeraFLOPS。

虽然比的1140亿晶体管数量要小一些，但H100的功率可以高达700W——上代A100还是400W。「在AI任务上，H100的FP8精度算力是A100上FP16的六倍。这是我们历代最大的性能提升，」黄仁勋说道。

图片来源：anandtech

Transformer类预训练模型是当前AI领域里最热门的方向，英伟达甚至以此为目标专门优化H100的设计，提出了TransformerEngine，它集合了新的TensorCore、FP8和FP16精度计算，以及Transformer神经网络动态处理能力，可以将此类机器学习模型的训练时间从几周缩短到几天。

Transformer引擎名副其实，是一种新型的、高度专业化的张量核心。简而言之，新单元的目标是使用可能的最低精度来训练Transformer而不损失最终模型性能。

针对服务器实际应用，H100也可以虚拟化为7个用户共同使用，每个用户获得的算力相当于两块全功率的T4GPU。而且对于商业用户来说更好的是，H100实现了业界首个基于GPU的机密计算。

Hopper还引入了DPX指令集，旨在加速动态编程算法。动态编程可将复杂问题分解为子问题递归解决，HopperDPX指令集把这种任务的处理时间缩短了40倍。

Hopper架构的芯片和HBM3内存用台积电CoWoS2.5D工艺封装在板卡上，形成「超级芯片模组SXM」，就是一块H100加速卡：

这块显卡拿着可得非常小心——它看起来整体异常紧凑，整个电路板上塞满各种元器件。另一方面，这样的结构也适用于液冷——H100设计700W的TDP已经非常接近散热处理的上限了。

自建全球第一AI超算

「科技公司处理、分析数据，构建AI软件，已经成为智能的制造者。他们的数据中心就是AI的工厂，」黄仁勋说道。

基于Hopper架构的H100，英伟达推出了机器学习工作站、超级计算机等一系列产品。8块H100和4个NVLink结合组成一个巨型GPU——DGXH100，它一共有6400亿晶体管，AI算力32petaflops，HBM3内存容量高达640G。

新的NVLINKSwithSystem又可以最多把32台DGXH100直接并联，形成一台256块GPU的DGXPOD。

「DGXPOD的带宽是每秒768terbyte，作为对比，目前整个互联网的带宽是每秒100terbyte，」黄仁勋说道。

基于新superPOD的超级计算机也在路上，英伟达宣布基于H100芯片即将自建一个名叫EoS的超级计算机，其由18个DGXPOD组成，一共4608个H100GPU。以传统超算的标准看，EoS的算力是275petaFLOPS，是当前美国最大超算Summit的1.4倍，Summit目前是基于A100的。

从AI计算的角度来看，EoS输出18.4Exaflops，是当今全球第一超算富岳的四倍。

总而言之，EoS将会是世界上最快的AI超级计算机，英伟达表示它将会在几个月之后上线。

下面看看H100在具体任务上的性能提升：单看GPU算力的话训练GPT-3速度提升6.3倍，如果结合新的精度、芯片互联技术和软件，提升增至9倍。在大模型的推理工作上，H100的吞吐量是A100的30倍。

对于传统服务器，英伟达提出了H100CNX，通过把网络与H100直接并联的方式绕过PCIE瓶颈提升AI性能。

英伟达更新了自家的服务器CPU，新的GraceHopper可以在同一块主板上两块并联，形成一个拥有144核CPU，功耗500W，是目前产品性能的2-3倍，能效比也是两倍。

在Grace上，几块芯片之间的互联技术是新一代NVlink，其可以实现晶粒到晶粒、芯片到芯片、系统到系统之间的高速互联。黄仁勋特别指出，GraceCPU与Hopper可以通过NVlink进行各种定制化配置。英伟达的技术可以满足所有用户需求，在未来英伟达的CPU、GPU、DPU、NIC和SoC都可以通过这种技术实现芯片端高速互联。

英伟达计划在今年三季度推出配备H100的系统，包括DGX、DGXSuperPod服务器，以及来自OEM合作伙伴使用HGX基板和PCIe卡服务器。

至于价格，昨天老黄并没有说「themoreyoubuy,themoreyousave.」

此前有传闻说专用于游戏的AdaLovelace架构，昨天并没有出现在黄仁勋的keynote中，看来还要再等等。

人人可见的元宇宙

「第一波AI学习了生物的预测推断能力，如图像识别、语言理解，也可以向人们推荐商品。下一波AI将是机器人：AI做出计划，在这里是数字人、物理的机器人进行感知、计划并行动，」黄仁勋说道。「TensorFlow和PyTorch等框架是第一波AI必须的工具，英伟达的Omniverse是第二波AI的工具，将会开启下一波AI浪潮。」

在元宇宙这件事上，英伟达可以说一直走在最前面，其提出的Omniverse是连接所有元宇宙的门户。但在以往，Omniverse是面向数据中心设计的，其中的虚拟世界偏向于工业界。

黄仁勋表示，英伟达的Omniverse涵盖了数字孪生、虚拟世界和互联网的下一次演进。下图为几种典型应用场景：

而对于数字孪生而言，Omniverse软件和计算机必须具备可扩展、低延迟和支持精确时间的特点。所以，创建同步的数据中心非常重要。基于此，英伟达推出了NVIDIAOVX——用于工业数字孪生的数据中心可扩展Omniverse计算系统。

第一代NVIDIAOVXOmniverse计算机由8个NVIDIAA40GPU、3个NVIDIAConnectX-6200Gbps网卡、2个IntelIceLake8362CPU以及1TB系统内存和16TBNVMe存储组成。

然后，英伟达利用Spectrum-3200Gpbs交换机连接32台OVX服务器构成了OVXSuperPOD。

目前，全球各大计算机制造商纷纷推出OVX服务器。第一代OVX正由英伟达和早期客户运行，第二代OVX也正从骨干网络开始构建当中。会上，英伟达宣布推出带宽高达51.2Tbps且带有1000亿个晶体管的Spectrum-4交换机，它可以在所有端口之间公平分配带宽，提供自适应路由和拥塞控制功能，显著提升数据中心的整体吞吐量。

凭借ConenctX-7和BlueField-3适配器以及DOCA数据中心基础架构软件，Spectrum-4成为世界上第一个400Gbps的端到端网络平台。与典型数据中心数毫秒的抖动相比，Spectrum-4可以实现纳秒级计时精度，即5到6个数量级的改进。黄仁勋表示，样机预计将于第四季度末发布。

说到元宇宙，则不得不提英伟达OmniverseAvatar平台。在本次GTC大会上，黄仁勋与「自己」（虚拟人）展开了一番对话。

同时，英伟达还希望Omniverse为设计师、创作者、AI研究人员提供帮助，因而推出了OmniverseCloud。只需点击几下，用户及其协作者可以完成连接。使用NVIDIARTXPC、笔记本电脑和工作站，设计师们可以实时协同工作。即使没有RTX计算机，他们也可以从GeForceNow上一键启动Omniverse。

比如下图中远程工作的几位设计师在网络会议中使用OmniverseView来评审项目，他们可以连接彼此，并唤出一个AI设计师。也即是，他们通过OmniverseCloud协作创建了一个虚拟世界。

在这场GTC大会上，黄仁勋打开了元宇宙的大门。

持续加注自动驾驶和电动汽车

既然机器人系统会是下一波AI浪潮，黄仁勋表示，英伟达正在构建多个机器人平台——用于自动驾驶汽车的DRIVE、用于操纵和控制系统的ISAAC、用于自主式基础架构的Metropolis和用于机器人医疗器械的Holoscan。这里只介绍DRIVE自动驾驶汽车系统。

机器人系统的工作流程很复杂，通常可以简化为四个支柱：收集和生成真值数据、创建AI模型、使用数字孪生进行仿真和操作机器人。Omniverse是整个工作流程的核心。

DRIVE自动驾驶汽车系统本质上是「AI司机」。与其他平台一样，NVIDIADRIVE是全栈式端到端平台，对开发者开放，他们可以使用整个平台或者其中一部分。在运行过程中，英伟达使用DeepMap高清地图等收集和生成真值数据，使用DGX上的NVIDIAAI来训练AI模型。Omniverse中的DRIVESim在OVX上运行，它属于数字孪生。DRIVEAV是一款运行在车载Orin计算平台上的自动驾驶应用。

在使用最新版DRIVE系统的实际行驶中，驾驶员可以启动DRIVEPilot导航，语音输入指令。信心视图（ConfidenceView）向车上的人展示汽车看到和打算要做的事。AI助手可以探测到特定的人，多模态AI助手可以回答驾驶员的问题，AI辅助停车可以检测可用的停车位，环绕视图（SurroundView）和高级可视化（AdvancedVisualization）方便驾驶员泊车。

所有这一切都离不开英伟达自动驾驶汽车硬件结构——Hyperion8，它也是整个DRIVE平台的构建基础。Hyperion8是由多个传感器、网络、两台ChauffeurAV计算机、一台ConciergeAI计算机、一个任务记录仪以及（网络）安全系统组成。它可以使用360度摄像头、雷达、激光雷达和超声波传感器套件实现全自动驾驶，并将分别从2024年起在梅赛德斯奔驰汽车、2025年起在捷豹路虎汽车中搭载。

DRIVESim中构建的Hyperion8传感器可以提供真实世界的视图。

今天，英伟达宣布Hyperion9将从2026年起在汽车上搭载。相较于前代，Hyperion9将拥有14个摄像头、9个雷达、3个激光雷达和20个超声传感器。整体而言，它处理的传感器数据量是Hyperion8的两倍。

在电动汽车领域，英伟达DRIVEOrin是理想汽车的集中式自动驾驶和AI计算平台。黄仁勋在会上宣布，Orin将于本月发售。不仅如此，比亚迪也将为2023年上半年投产的电动汽车搭载英伟达DRIVEOrin系统。

「Omniverse在英伟达AI和机器人领域的工作中非常重要，下一波AI浪潮需要这样的平台，」黄仁勋最后说道。

参考内容：https://www.anandtech.com/show/17327/nvidia-hopper-gpu-architecture-and-h100-accelerator-announced

©THEEND

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

评论收藏

英伟达新架构发布，AI芯片上限提升了九倍，20块带宽就等于全球互联网

美国顶级互联网攻击工具曝光！中国是重点目标

国内四大云计算巨头“算力竞赛”报告

中金公司：半导体制造产能扩张，设备零部件需求旺盛

GUIDE to the Future Network，沙特Zain与华为签署新的战略合作MOU，探索面向未来的网络演进策略

紧急驰援，基础电信运营商重保通信“生命线”！

钛媒体独家对话叶军：低代码到酷应用到底改变了什么？

Nreal Air抢先上手：专为观影打造的3DoF精简版Light